「機械に言葉を教えたいならゲームの世界に放り込めばいい」について(その1)

2017.08.25のMIT Tech Reviewの記事に「機械に言葉を教えたいならゲームの世界に放り込めばいい」という記事があった。

記事の概要としては以下の通りである。

——————————————————————————————————

「このほど、人工知能(AI)に焦点を当てるアルファベット(グーグル)の子会社ディープマインド(DeepMind)とカーネギーメロン大学の研究チームが、ファーストパーソン・シューティングゲーム(本人視点のシューティングゲーム)をベースにした3D空間で、機械が自分自身で言語の簡単な原理を理解する方法を開発した。

「3D空間で言語を理解できるようにすることは、間違いなく、現実世界で同じことをするための重要な一歩です」とカーネギーメロン大学の修士学生、デヴェンドラ・チャプロットは話す。チャプロットは計算機用言語協会(ACL)の年次総会で論文を発表する予定だ。究極の目標は、現実生活に非常に近いシミュレーションを作り、その中でAIが訓練したことを現実世界に持ち込めるようにすることだという。」


この研究がもたらすインパクトは、現在米国を中心に出荷台数が伸びている音声認識スマートスピーカーの応答精度を相当高めることができる可能性が高まったということである。音声認識スマートスピーカーだけではなく、りんな、やChatbot、Pepperの応答が”まとも”になるということである。

これらの現状の応答パターンの生成手法は程度の差はあれ、「開発者がパターンを考える」というものである。人工知能ではなく、”人工無能”と通称で呼ばれる手法である。

リカレントネットワークのような深層学習が登場しても、なぜ、自動でコンピュータが応答生成するようにならないかという理由は以下の通りである。リカレントネットワークは、蓄積された会話のパターンを学習することで、ある問い合わせがあった場合、学習済みのパターンにその問い合わせに近いものがあった場合、それに対応する応答パターンを組み合わせて出力するよう学習されているだけである。したがって、学習パターンにない想定外の問い合わせがあった場合は、もっとも近いと思われるパターンを出力してしまい、その結果、言語としておかしい、または、的確でない応答をしてしまう。言語としておかしい応答をするよりは、文法的に正しい応答をするという要件の精度を高めるために人間が予め設定した応答パターンを出力するようにしている。

それに対し、この研究が目指すものは、人間が言葉で指令するAIを3Dゲーム空間で活動させることでAIが”言語”を理解し、獲得することである。AIが言語を理解し、獲得するということは、をの言葉が指し示す”意味の概要”を同時に理解、獲得するということである。

この技術により音声認識スマートスピーカーを経由した問い合わせに対して、より適切な応答を自動で生成することができるようになると考える。

(その2)では、この研究の技術について考える。

画像や映像に写っている物だけでなく場面全体の状況も認識する人工知能をMITで研究開発中

MITのComputer Science and Artificial Intelligence Laboratory(コンピュータ科学と人工知能研究所)の研究プロジェクトは、画像や映像から物を認識し、さらに、その場の状況を認識する。

人間が画像を見ると、そこで今何が起きているのかをおおむね直観的に判断できる。しかし今のコンピュータビジョンや機械学習システムは、それが苦手(にがて)なため、車の自動運転とか荷物の配達などのインテリジェントなシステムの進歩を阻んでいる。状況認識に取り組んだMITの研究者たちは、これまであったシステムよりも33%高いパフォーマンスを実現したという。

今週彼らが発表した論文によると、その彼らのシステムは、画像を見て、そこで何が行われているかを判断するだけでなく、その状況を構成する個々の物も認識する。つまり、全体の認識だけでなく、個別の認識もできる。

おもしろいのは、研究者たちは自分たちの状況認識技術が約50%の認識精度を達成した理由を、正確に把握していない(なお、人間の状況認識精度は約80%)。とにかくそのシステムは画像中の何らかの視覚的特徴を拾って、それらを返しているのだ。

http://jp.techcrunch.com/2015/05/09/20150508ai-project-designed-to-recognize-scenes-surprises-by-identifying-objects-too/