Googleから「すべてを学ぶ1つのモデル」が発表

我々が、ものを考える際は、様々な記憶やイメージに思い浮かべながら考えている。たとえば、山に行き、ホトトギスの鳴き声を聞けば、同時に過去に見たホトトギスの画像や、実物の記憶、その聞いた季節や周辺の様子、場合によっては、ホトトギスの漢字表記(杜鵑、不如帰など)も思い浮かべる。それらは、すべて脳の「学習」機能によるものと考えられるが、同時に学習しているわけではない、それらの情報(エビデンス)は別々のタイミングで、視覚や聴覚などのセンサーから脳に入力され学習される。その際に、次々と学習後のモデルが統合されていくと考えられている。その様に様々な形態(モード)を持つモデルは「マルチモーダルモデル」と呼ばれている。

近年のディープラーニングでは学習による認識の精度は高くなっているが、その結果のモデルは、機械翻訳や、音声認識、画像認識、といった個々の識別の「シングルモードモデル」に留まっている。

しかし、今月、Googleから(DeepMind社ではない)そのような「マルチモーダルモデル」の学習に向かうと思われる論文が発表された。

一つの事象を多面的に捉えているというわけではないが、異なるセンサー(感覚器)からの入力による学習を同じモデル(同一のネットワーク上)に実施しても、学習成績が低下することはなく、むしろ向上したという報告である。

これは、ネットワークの規模を大きくすることで単一のネットワークで、様々な認識が可能なAIが実現できるということであり、現状の様な、1ネットワーク、1タスクのような特化型AIではなく、人間のように様々なタスクをこなすことが可能な汎用AIに向かう試みであると考える。

以下、「One Model To Learn Them All」のabstractの翻訳である(Google翻訳による)

深層学習は、音声認識、画像分類、翻訳まで、多くの分野で大きな成果をあげている。しかし、それぞれの問題についてモデルをうまく機能させるには、アーキテクチャーの研究と長時間のチューニングが必要である。本論文では、複数のドメインにわたるいくつかの問題について、良い結果をもたらす単一のモデルを提示する。特に、この単一のモデルは、ImageNet、複数の翻訳タスク、画像キャプション(COCOデータセット)、音声認識コーパス、および英語解析タスクで同時に訓練されている。このモデルアーキテクチャは、複数のドメインのビルディングブロックを組み込んでいる。これには、畳み込みレイヤ、アテンションメカニズム、まばらなゲートレイヤーが含まれている。これらの計算ブロックはそれぞれ、訓練するタスクのサブセットにとって非常に重要である。興味深いことに、ブロックがタスクにとって重要ではない場合でも、それを追加するとパフォーマンスが損なわれることはなく、ほとんどの場合、すべてのタスクでパフォーマンスが向上する。また、データの少ないタスクは他のタスクとの共同訓練に大きな恩恵をもたらすが、大規模なタスクのパフォーマンスはまったく低下しない。

8種類の問題を同時に学習した際(左側)のそれぞれの問題の認識精度と単一問題を学習した際(右側)のそれぞれの問題の認識精度の比較では、左側がわずかに向上しているのが見て取れる。

https://arxiv.org/abs/1706.05137