2017.08.25のMIT Tech Reviewの記事に「機械に言葉を教えたいならゲームの世界に放り込めばいい」という記事があった。
記事の概要としては以下の通りである。
——————————————————————————————————
「このほど、人工知能(AI)に焦点を当てるアルファベット(グーグル)の子会社ディープマインド(DeepMind)とカーネギーメロン大学の研究チームが、ファーストパーソン・シューティングゲーム(本人視点のシューティングゲーム)をベースにした3D空間で、機械が自分自身で言語の簡単な原理を理解する方法を開発した。
「3D空間で言語を理解できるようにすることは、間違いなく、現実世界で同じことをするための重要な一歩です」とカーネギーメロン大学の修士学生、デヴェンドラ・チャプロットは話す。チャプロットは計算機用言語協会(ACL)の年次総会で論文を発表する予定だ。究極の目標は、現実生活に非常に近いシミュレーションを作り、その中でAIが訓練したことを現実世界に持ち込めるようにすることだという。」
この研究がもたらすインパクトは、現在米国を中心に出荷台数が伸びている音声認識スマートスピーカーの応答精度を相当高めることができる可能性が高まったということである。音声認識スマートスピーカーだけではなく、りんな、やChatbot、Pepperの応答が”まとも”になるということである。
これらの現状の応答パターンの生成手法は程度の差はあれ、「開発者がパターンを考える」というものである。人工知能ではなく、”人工無能”と通称で呼ばれる手法である。
リカレントネットワークのような深層学習が登場しても、なぜ、自動でコンピュータが応答生成するようにならないかという理由は以下の通りである。リカレントネットワークは、蓄積された会話のパターンを学習することで、ある問い合わせがあった場合、学習済みのパターンにその問い合わせに近いものがあった場合、それに対応する応答パターンを組み合わせて出力するよう学習されているだけである。したがって、学習パターンにない想定外の問い合わせがあった場合は、もっとも近いと思われるパターンを出力してしまい、その結果、言語としておかしい、または、的確でない応答をしてしまう。言語としておかしい応答をするよりは、文法的に正しい応答をするという要件の精度を高めるために人間が予め設定した応答パターンを出力するようにしている。
それに対し、この研究が目指すものは、人間が言葉で指令するAIを3Dゲーム空間で活動させることでAIが”言語”を理解し、獲得することである。AIが言語を理解し、獲得するということは、をの言葉が指し示す”意味の概要”を同時に理解、獲得するということである。
この技術により音声認識スマートスピーカーを経由した問い合わせに対して、より適切な応答を自動で生成することができるようになると考える。
(その2)では、この研究の技術について考える。