AWS Rekognition Custom LabelとAzure Custom Visionの料金体系の特徴

深層学習の精度向上にともない、Google Cloud,AWS,Azureなどクラウドで提供されている画像認識サービスの活用が広がってきている。クラウドの画像認識サービスは、提供されている学習モデルによる画像認識であるため、学習データの収集・ラベリング、学習・評価などの利用開始までの手間が一切かからない。また、料金もリクエスト単位の従量課金であるためコスト面においても利用開始のハードルが低いと言える。

しかし、認識対象は世界共通の物体であったり、分類の粒度が大まかであったり、分類名であるラベルが日本語に対応していなかったりなどユーザのニーズに適合していない場合がある。そうした個別ユーザニーズに対応するために、各クラウドでは画像認識モデルのCustomサービスを提供している。AWSではRekognition Custom Labelであり、AuzreではCustom Visionと呼ぶサービスである。

どちらもユーザが独自に訓練用画像データを収集・ラベリングしたデータセットを用いて、サービス上で学習・評価を実施することで独自の分類や物体認識を実現する学習モデルを構築し、API経由で学習モデルを利用し画像認識することが可能となるサービスである。それらの精度については別途記述するが大きな差はなく、十分な訓練データ量を準備すれば高精度の画像認識モデルを得ることが可能である。

2つのサービスの大きな違いは料金体系の違いにある。簡単にいうと、Azure Custom Visionは通常の画像認識サービスと同様にトランザクション単位の従量課金であるのに対し、AWS Rekognition Custom LabelはEC2インスタンスと同様にカスタムモデル起動時間単位であるというのが違いである。

Azure Custom Visionの料金体系は(https://azure.microsoft.com/ja-jp/pricing/details/cognitive-services/custom-vision-service/)によれば以下の表のようになっている。予測(認識)は1トランザクションあたり¥0.229となっている。また、時間単位で考えると、10TPSのトランザクションが連続する場合を仮定すると1時間あたり¥8,244、1日あたり¥197,856、1ヶ月あたり¥5,935,680となる。

インスタンス1 秒あたりのトランザクション数 (TPS)機能料金
無料2 TPSアップロード、トレーニング、予測のトランザクション
最大 2 個のプロジェクト
1 か月あたり最大 1 時間のトレーニング
5,000 枚のトレーニング画像は無料 (プロジェクトあたり)
1 か月あたり 10,000 回の予測
Standard10 TPS予測トランザクション
最大 100 個のプロジェクト
¥229.870/1,000 トランザクション
Standard10 TPSトレーニングコンピューティング時間あたり ¥1,149.350
Standard10 TPS画像ストレージ
それぞれ最大 6 MB
1,000 枚の画像あたり ¥80.455
価格オプションの詳細

AWS Rekognition Custom Labelの料金体系は(https://aws.amazon.com/jp/rekognition/pricing/)によれば以下の表のようになっている。つまり、2022年1月5日現在の為替相場に沿って1ドル115円と想定すると、推論は1時間¥460となり、1日あたり¥11,040、1ヶ月あたり¥331,200となる。

特徴料金
推論4.00USD/時間
トレーニング1.37USD/時間

単純な比較では、PoCまたはアプリのベータ版リリースや初期立ち上げ時のようにリクエストが頻繁でない場合は、アイドリングタイムが発生するためAWSよりはAzureの方がコストがかからず利用しやすいと言える。しかし、リクエストが高頻度または連続する場合は、AWSの方がコストかからないように見える。

ここで詳細に比較するにはAWSの性能を考える必要がある。AWSのサイトをみると、”1 日あたり 440,000 枚の画像の規模では、ニーズを満たすために少なくとも 2 個の推論リソースを並行して実行する必要があります。”という記述があり、”44 時間 / 日 x 4 USD / 時間 = 180.00 USD / 日”となっているので、AWS Rekognition Custom Labelの推論能力を2.7TPSと想定する。つまり、Azure Custom Visionの推論性能は(最大時で)AWS Rekognition Custom Labelの約4倍近い。そのため、AWS Rekognition Custom Labelで同等の性能を得るには4個の推論リソースを並行実行する必要があるが、それでもコストはAzure Custom Visionの1/4以下である。

よって、2つのクラウドの使い分けは以下の通りと考えられる。もちろん、一般的に言われるように継続的に利用する場合、クラウドよりもオンプレミスの方がコストが低減できる場合もある。(その場合は、画像認識モデルを自前で構築する必要があるので、弊社でも対応可能)

  • リクエスト頻度が2,3TPS程度であればAzure Custom Vision利用の方がリーズナブル
  • リクエスト頻度が3TP以上であればAWS Rekognition Custom Label利用の方がリーズナブル

Microsoftが世界トップクラスの言語モデル「GPT-3」の独占的ライセンス取得を発表

ちょっと前の情報だが、MicrosoftはGPT-3の独占的ライセンスを取得したことを発表した(2020年9月22日)。https://blogs.microsoft.com/blog/2020/09/22/microsoft-teams-up-with-openai-to-exclusively-license-gpt-3-language-model/

「GPT-3」とは、Tesla motorやSpaceXの創業者であるイーロン・マスクが出資者として名を連ねる団体のOpenAIが開発し公開している言語モデルであり、GPT-3は、transformerとunsupervised pre-trainingという2つの技術を組み合わせた GPTのバージョン3を指している。

Googleが開発しているBERTと競って言語モデルのSOTA(State Of The Art:最高水準)を更新しているモデルである。特に、GPT-2が公開された際には、大量のデータを用いて訓練生成したモデルは、フェイクニュースなどで悪用される恐れがあるという理由で公開されず、OpenAIの設立趣旨に反するのではないかとの議論になったほど優れたモデルである。

GPT-3は1,750億のパラメータによって構成されているため、個人や一般企業が新たにモデルをチューニングすることは現実的ではなく、OpenAIが提供するAPIを介して”利用”するということが現実的である。つまり転移学習のベースモデルとして利用することが想定される。

このモデルを用いることで言語における単語の出現を予測することが可能となり、ある単語の後に続く一番もっともらしい単語・文章の予測生成が可能となる。たとえば、ある記事の見出しを与えるだけで、その後に続く長い文章を高精度で生成することができる。transformer技術は言語だけでなく、画像や作曲などの”順序”が重要な要素となる分野においてもSOTAを更新しつつあり、transformerを応用したモデルであるBERTやGPT-3の応用が始まっている。

MicrosoftはOpenAIとパートナーシップを結んでおり、今回の独占的ライセンス取得はその流れによるものと思われる。Microsoftは6月にリリースしたAzureホストAPIにてGPT-3を提供すると発表している。今回の取引による、OpenAIのAPIサービスには影響はなく、これまで通り、OpenAIのAPIを介したGPT-3の利用も継続利用可能とOpenAIからコメントされている。

MicrosoftがAzure MLを正式リリース

Microsoftは今日(米国時間2/18)企業のビッグデータ処理向けにクラウド上の機械学習のAPIを公開した。

Microsoftは、クラウド機械学習サービス、Azure Machine Learningを正式に発表した。このサービスは6月にベータ版が公開されていたが、今回の正式リリースを機にデータ処理言語Rに加えて、今回のアップデートで新たにPythonがサポートされた。

新しいAzure MLプラットフォームはPythonに加えてHadoopとSparkもサポートした。 これでビッグデータを処理するための標準的ツールはプラットフォームを選ばず、ほぼ全面的にカバーされることになる。

Azure MLはXboxやBingですでに使われている機械学習機能を利用している。またデベロッパーが未来予測アプリを開発するために使うテンプレートとワークフローも用意される。これによって機械学習アプリを開発するスピードは大幅に加速され、サービスのプロバイダはAzure MLプラットフォーム上で各種のウェブサービスを開発できるだけでなく、APIを公開することも可能になる。

このプラットフォームの真の強みは簡単にAPIを作成し、即座にカスタムデータ処理を開始できるところにある。

http://jp.techcrunch.com/2015/02/19/20150218microsoft-officially-launches-azure-machine-learning-big-data-platform/ より抜粋

マイクロソフト、音声アシスタント機能「コルタナ」

米マイクロソフトがハイテク界の頂点に返り咲くための秘密兵器は機械学習と人工知能(AI)だと同社の研究開発幹部陣が2014年4月7日明らかにした。

マイクロソフトのハリー・シャム上級副社長(技術・研究担当)は、自身のチームが取り組んでいる大きなトレンドには人間とコンピューターの相互作用が関わっていると語った。シャム氏はマイクロソフトがテルアビブで開催したハイテク会合「シンクネクスト2014」で「われわれはパーソナルコンピューターからパーソナルコンピューティングに移行しようとしている」と話した。

マイクロソフトのイスラエルの研究開発センターの責任者、ヨラム・ヤコビ氏は、同社が「目に見えないユーザーインターフェース(UI、ユーザー向けの表示や入力の方法など)」に重点投資していると話した。ヤコビ氏は、将来は人間が端末に触れたり、タイプしたり、話しかけたりしなくても端末が人間の要望を事前に「理解する」ようになるとし、それを「UI.ネクスト」と呼んだ。

ヤコビ氏は「UIはコマンドプロンプトから始まり、次にグラフィックス、次にタッチ、次にジェスチャーに移った」と語った。また「今や、操作するもののない、見えないUIに移行しようとしている。あなた方を取り巻くハイテク機器があなた方の要望を把握する」と話し、人々はそれを期待している、と説明。「われわれはこれを取り組みの最優先事項にしている」と述べた。

ヤコビ氏とシャム氏によると、マイクロソフトが発表した音声アシスタント機能「コルタナ」は機械学習についての取り組みの一部だ。マイクロソフトはコルタナを米アップルの「Siri(シリ)」、米グーグルの「ナウ」に対抗する技術と位置づけている。

http://jp.wsj.com/articles/SB10001424052702304364704579488731416415614