AI研究に求められていること

このブログのタイトルにもなっている「シンギュラリティ」は、2045年に来るとアメリカの未来学者レイ・カーツワイルが著書で書いてからもう10年以上経っている。

最近、AIブームということもありメディアで”AI”という言葉を見聞きしない日はない。弊社もAIの事業を展開する企業としてはこの分野が注目されるのは非常に嬉しい(投資が増えるともっと嬉しい)。

しかし、一方で昨今の2045年までのタイムスパンを考慮しない過剰なまでの期待感には違和感を感じてもいる。国でもあと数年で、自ら人間に質問ができるAIを開発するという計画がでてきている。様々なセンサーが発達してきているので、カメラやマイクで人間の表情や声の変化を計測し、AIで感情を認識することは可能と思われる。ただ、状況に合わせた言葉を生成するのはかなり難しいのではないかと考える。現在のいわゆるチャットボットは、相手の言葉をテキストに変換し、その中のキーワードを抽出し、そのキーワードと関連性が強い、会話パターンをあらかじめ登録されたデータから選択し、返事として返す、というのが一般的な流れである。各社のAI技術の見せ所は、キーワード抽出から関連性が強い会話パターンの選択までである。特に難しいのが、”あらかじめ登録されたデータ”ではなく、人間のように”都度、その場の状況に合わせて会話パターンを生成する”という流れである。

これは2つの面で難しい

ひとつめは、返事の方針というか、何を相手に話すかの判断である。これは”話す”という動作とは別の判断であり、通常の人間であれば、

・相手の現在の感情判断(表情や声、動作で認識)

・それまで文脈、経緯

を参照し

・話の内容を理解し

・相手の目的を察し

・自分の利害関係を判断し

・適切な返答や問いかけを抽出する

という流れを瞬時に無意識に実行している。

このようなことは、その人間の経験にも依存しており、AIに代替させる場合、どのようなレベルを期待するかということを定める必要がある。また、そもそも現在のAI技術がこのような多様・多面的な判断をできるようになるために、どれだけの学習データと学習時間が必要になるか、パターンマッチングだけで良いのか、学習可能なのかということについては不明な状況である。

2番目は、判断結果をどのような文として表現するかという問題である。この辺りは、現在でも、RNN(リカレントニューラルネットワーク)というAI技術を用い、自動で文を生成する研究開発が進んでいるが、精度という面についてはまだまだである。しかし、こちらについては人間についても、判断結果と文のパターンマッチッグとおおよそ考えられるため判断結果に対応した学習コーパスが揃えば時間が解決すると予想される。

上記をもっと端的に言うと、現在のAIは”認識”することには長けてきたが、”理解”するには、まだ不十分であると言える。(この違いについては次回に記載する。)

本日のMITレビューの記事に、米国スタンフォード大学の人工知能研究所の所長からGoogleの研究者に転身した研究者のコメントがあり、そのコメントが上記と同様の現在のAI研究の方向性を示している。一部抜粋を掲載する。

——AIをより人間中心にするにはどのようにすればよいでしょう?

「現在のAIの定義とは、部屋が燃えていても完璧にチェスを指せる機械である」という、70年代に書かれた素晴らしい名言があります。これはAIの限界をとてもよく言い当てています。次世代AI研究で浮かび上がってくるのは、より有用で便利な機械を作ろうとすれば、文脈の理解に立ち戻る必要がある、ということです。知識の抽出と推論の強化に着手しなければなりません。これが何より重要な段階なのです。

Put Humans at the Center of AI

機械学習とプラットフォームビジネスについて

近年では、GoogleやMicrosoftのようなITジャイアントと呼ばれる企業が、学習済みモデルによる音声認識、音声合成、翻訳、顔識別や画像識別などの認識機能をクラウドAPIで提供するグローバルサービス提供している。

音声認識、音声合成、翻訳のように、言語別に特徴が異なり汎用的であればあるほど精度が向上する情報はグローバルサービスに適しているが、画像識別については汎化が難しく産業界でのビジネスでの利用はまだ難しいと思われる。

一方、最近、弊社をはじめ数社が個別に、よりビジネスに適した種別の情報の学習済みモデルを提供するプラットフォームサービスを開始している、こちらのプラットフォームサービスは前者のクラウドサービスと比較して、転移学習などの技術により、基礎となる学習モデルに追加学習を実施することで、ユーザそれぞれのニーズに合わせた特化をしやすく、ビジネスユースに適していると考える。

今後、産業界でAIが活用され、少子高齢社会にて効率化が推進されるには、このようなプラットフォームサービスが発展するのが最適であると考える。

「機械に言葉を教えたいならゲームの世界に放り込めばいい」について(その2)

2017.08.25のMIT Tech Reviewの記事「機械に言葉を教えたいならゲームの世界に放り込めばいい」という記事についてのその2を記述する。

個々のパターンだけを正確に獲得するではなく、自ら様々な必要なパターンを試行錯誤により獲得するには、学習を通じて手段、プランを自ら考えられるようにする必要がある。そのためには教師付き学習ではなく、強化学習が適切である。

AlphaGOも要となっているのはDeep Mind社が研究開発したDeep Q-Network(DQN)と呼ばれる強化学習アルゴリズムである。

強化学習は教師付き学習のように正解を与えるのではなく、規定された環境(例:ゲーム)内でエージェントと呼ばれるAI(例:ゲームであればplayer)に様々な振る舞いをさせ、その結果評価に対しインセンティブ(例:ゲームであればポイント)を与える。学習アルゴリズムはある期間それを繰り返した後、トータルのインセンティブを最大にするようにパラメータをチューニングすることでその環境内部の振る舞い(例:ルールに沿ってポイントを最大にするテクニック、コマンド)を学習・獲得するものである。与えられた環境にて経験を通じて最適な行動ができるようにパラメータを学習によってチューニングするということである。

教師付き学習と異なる点は、予め準備した学習すべき入出力のデータセットにとらわれない学習ができるということである。もし、教師付き学習で同様の学習をするとすれば、ゲームの動作パターンと、それに対応するべきPlayerの動きのパターン(しかも時系列パターン!!)をすべて網羅したデータセットを構築する必要があり大変な労力になる。

ただし、強化学習の場合は、学習する環境に依存するため、その環境をどう規定するかというのが鍵になる。例えば囲碁では、その囲碁の空間とそれぞれの時点での勝ち負けという最低限のルールは規定する必要がある。研究目的でいくつかのゲームのプラットフォームがOpenAI Gymとして公開されている。

長々と前置きを書いてきたが、この研究では、ゲーム空間を3Dし、リアルの空間に近づけているということと、エージェントが自分の行動を判断するのではなく、人間が行動を判断し、その判断に沿って行動するようにエージェントに「言語」で命令するのである。したがって、強化学習でエージェントが学習するのは「言語」とその言葉が指す「行動」の関係である。「少し右」と言った場合、「少し」の意味・程度と「右」の意味・内容を学習していくことになる。

汎用AIの開発にはロボットのような身体性が必要と言われているが、この研究ではバーチャルの世界で「言語」の意味と「行動」を結びつける学習の可能性を言及している点で非常に将来性が高いと考える。

 

 

「機械に言葉を教えたいならゲームの世界に放り込めばいい」について(その1)

2017.08.25のMIT Tech Reviewの記事に「機械に言葉を教えたいならゲームの世界に放り込めばいい」という記事があった。

記事の概要としては以下の通りである。

——————————————————————————————————

「このほど、人工知能(AI)に焦点を当てるアルファベット(グーグル)の子会社ディープマインド(DeepMind)とカーネギーメロン大学の研究チームが、ファーストパーソン・シューティングゲーム(本人視点のシューティングゲーム)をベースにした3D空間で、機械が自分自身で言語の簡単な原理を理解する方法を開発した。

「3D空間で言語を理解できるようにすることは、間違いなく、現実世界で同じことをするための重要な一歩です」とカーネギーメロン大学の修士学生、デヴェンドラ・チャプロットは話す。チャプロットは計算機用言語協会(ACL)の年次総会で論文を発表する予定だ。究極の目標は、現実生活に非常に近いシミュレーションを作り、その中でAIが訓練したことを現実世界に持ち込めるようにすることだという。」


この研究がもたらすインパクトは、現在米国を中心に出荷台数が伸びている音声認識スマートスピーカーの応答精度を相当高めることができる可能性が高まったということである。音声認識スマートスピーカーだけではなく、りんな、やChatbot、Pepperの応答が”まとも”になるということである。

これらの現状の応答パターンの生成手法は程度の差はあれ、「開発者がパターンを考える」というものである。人工知能ではなく、”人工無能”と通称で呼ばれる手法である。

リカレントネットワークのような深層学習が登場しても、なぜ、自動でコンピュータが応答生成するようにならないかという理由は以下の通りである。リカレントネットワークは、蓄積された会話のパターンを学習することで、ある問い合わせがあった場合、学習済みのパターンにその問い合わせに近いものがあった場合、それに対応する応答パターンを組み合わせて出力するよう学習されているだけである。したがって、学習パターンにない想定外の問い合わせがあった場合は、もっとも近いと思われるパターンを出力してしまい、その結果、言語としておかしい、または、的確でない応答をしてしまう。言語としておかしい応答をするよりは、文法的に正しい応答をするという要件の精度を高めるために人間が予め設定した応答パターンを出力するようにしている。

それに対し、この研究が目指すものは、人間が言葉で指令するAIを3Dゲーム空間で活動させることでAIが”言語”を理解し、獲得することである。AIが言語を理解し、獲得するということは、をの言葉が指し示す”意味の概要”を同時に理解、獲得するということである。

この技術により音声認識スマートスピーカーを経由した問い合わせに対して、より適切な応答を自動で生成することができるようになると考える。

(その2)では、この研究の技術について考える。

機械学習におけるディープラーニングと確率モデルの関係

従来の機械学習のアプローチは確率統計モデルによるものが主流でした。

機械学習とは、分析・解析対象とする現象や行為の振る舞いを数理的に表現する”モデル”を学習によって獲得することです。学習した結果は、新たな入力データの出力値予測(regression)や分類(classification)などの推論(inference)に利用されます。

ところが、実際の現象は、様々な要因が相関しており、その要因自体も常に確定的ではなく様々なノイズを含んでいるため、その振る舞い自体は、様々な確率的要因によって構成されます。

よって、それらをそのままモデル化しようとすると非常に複雑なモデルとなってしまい、数学的表現が不可能になる、または表現できても解析的に取り扱うのが困難になります。

そこで、従来の機械学習は学習の際、その目的、対象の傾向や特徴に応じて何らかの仮説を置き、その仮説に適合する確率分布モデルのパラメータを条件付き確率論をベースに解析的、数値解析的に求めています。この方法でも80%〜90%程度の精度で推論が可能となります。

しかし、現実の状況のばらつきが大きい場合、リーズナブルな仮説は、現実とのギャップを完全には埋めることができず精度を90%以上に向上させるのは困難でありました。そこでブレイクスルーを実現したのがディープラーニングであります。

ディープラーニングは、従来の機械学習の確率分布を非線形モデルとして数値解析的にパラメータを求める手法の拡張とも考えられますが、大きく異なるのはその階層を深くすることでネットワーク内に複数のモデルを実現することが可能となることであります。その場合、パラメータを数値解析的に求めるのは難しいですが、バックプロパゲーションなどの探索アルゴリズムを繰り返し実行し最適化を図ることで精度が高いモデルを構築することが可能となっています。

ただし、柔軟性が高いのでモデルを確定させるのは、その分、大量のデータと学習演算処理が必要となります。また、現実でもデータのばらつきが小さいと想定される問題にディープラーニングを適用した場合は、確率モデルによるアプローチと精度の差は大きくなく、逆に導出コストが高くなると想定されます。

つまり、課題の傾向と目標精度を理解し、適切な学習手法を選択するのが、コストが重要となるビジネスで機械学習を活用するコツと考えられます。

 

 

【Wired記事より】AIの進化を前に、日本企業は「働き方」を問うているだけでは未来はつくれない

2017/8/7のWIREDのWeb版に掲題の記事が掲載されました。今後のAIの開発・導入とそのような社会の構築に対し、非常に重要な点を指摘していると考えますので要点を抜粋し以下に示します。。

https://wired.jp/2017/08/07/cic-future-of-work/

冒頭のコメントより

「5〜10年以内に全ての業界において株価は崩壊し、経営陣は刷新される──。日本を代表する企業の首脳たちが集まった円卓で、カーネギーメロン大学教授ヴィヴェク・ワファが伝えた言葉は、いまぼくらが直面する「人工知能」との共生について、大きな示唆を与えてくれるものだ。3つのポイントから読み解く。」

1.AIは日本型雇用システムにいかなるインパクトを与えるか

ワファが指摘するのは、産業構造のディスラプションとテクノロジーによるリスクが、かくも十分に考慮されていない現状だ。

「AIによってもたらされる問題をとらえるとき、失業は問題全体の5パーセント程度でしかありません。もっと大きな問題があることを知ってほしい。スタートアップの企業が大手を食うといったことも起き始めているように、テクノロジーが企業だけでなく産業そのものを消滅させるかもしれないのです。だが、それに向けて準備を整えている企業は、ここにおられる企業を含めて日本企業のわずか1パーセントであり、残りの99パーセントは気がついてさえいないのです」と述べた。

2.AIは日本の生産性を改善するか

ワファは想定される2つの“シナリオ”として、次の2つを挙げた。

「200年の歴史しかない米国が考える未来は、シナリオAが『スタートレック』のような社会、シナリオBが『マッドマックス』の世界です。・・・・・(略)。技術のリスクを理解することも重要です。リスクを知ったうえで、メリットの方がリスクを上回ることを認識して欲しいと思います。ロボットに依存し過ぎると失業より深刻な問題がありますが、一方で、日本は長い歴史をもっています。日本がかつてももっていた価値観に立ち返ってみてはどうでしょうか。日本は生産性だけではなく、国民全体がAIにより恩恵を受けること、たとえば教育や医療などにも取り組むのがよいのでしょう。さらに、たとえばこの国がもっていた悟りへと至るような世界観は、未来の仕事にも生かせると思うのです」

3.未来を生きる学び

ワファの答えは、「子どもが勉強したいことをさせるのが大切」と言う。「“常に勉強すること”を習慣づけることが重要なのです。日本でも、これから終身雇用はなくなり、一人ひとりのキャリアは5~10年で変わるものになるでしょう。その度ごとの学習を、一生続ける必要があります。・・・・・・(略)。15歳にもなれば、あっと驚くような仕事ができるようになっているかもしれません。そうした世界で生きるためには、学習することを楽しむ子どもに育てることが大切です。学びたいことをやらせるのが、いちばんなのです」

AIが独自の言語を話すということは危機か?

最近になってAI研究を進める米国の企業で、AIが独自言語を生み出したことについての記事がいくつかありました。この件についてAI研究の末席にいる者として考えてみます。

グーグルの翻訳AIが「独自の言語」を生み出したといえる根拠

人工知能が勝手に「独自の言語で話す」恐るべき時代の到来

・FacebookのAIは処分されてなんかいない、我々はSFになれない

特に2番目の記事には反響が大きかったように思われます。AI独自の言語の生成については1番目のGoogle翻訳の際に研究者以外ではそれほど話題になりませんでしたが、やはり危機感を持たせるような報道の仕方でどの様にもなるということでしょうか。それとも、「言語を生成」ではなく「会話」という、「独自にコミュニケーション」というところが興味を引くということでしょうか。

2番目の記事では、何を恐れているのか良く理解できませんが、AI同士が学習の結果として独自の言語でコミュニケーションを取り出すのはあり得ることですが、新たな言語がでてきても、人間が必ずしも解読できないということは意味していないのでは危機感を持つ必要はないと考えます。

先日、友人の機械翻訳の研究者と懇談しましたが、「自然言語」に対していくつかの知見を得ました。翻訳の研究は元々は暗号解読から始まったということです。つまり、基本的に理解できないようになされているコミュニケーションを様々な仮説を置きながら、自言語とのマッピングを試していく結果として解読(翻訳)可能になるということです。

人間の場合は言語が異なっていても同じ世界観を共有することができるので、それをベースに単語や文法のマッピングをすることでなんとか翻訳というのが成立し、異なる言語を利用していても相互理解できたと(思い込む)ことができます。しかし、例えば、人間が理解できない数万次元空間の情報をコンピュータ同士が独自のコミュニケーション言語でやりとりしようとした場合、人間はその空間を理解できないので、それを表現する言語を理解することはできないのではないか思います。(研究者同士が○○理論の○○空間と言って会話しているのを一般人が理解できないように)

また、動物は犬や猫、チンパンジーやオラウータンのように種別によっては、ヒトの言葉を理解する(またはコミュニケートできる)と思います。ただし、人間がそう感じないのは、ヒトの言葉を理解できるだけの学習時間を人間が動物に与えていないか、「理解できた」と人間が認識できるだけコミュニケーションできていないだけかもしれません。

そういう意味ではAIが同様の考えを人間に持つ時がくるかもしれません。決して、人間がAIよりも知能的に「上位」の立場であるとはいいがたい現状であるので、そのような場合には、人間がわかりやすく表現するようにAIに命令するという方法が必要になります。

 

汎用人工知能実現に向けた2つのキーファクタ

私は仕事柄様々な文献を参照しているが、その過程で、現在、汎用人工知能実現に向けたキーファクタは以下の2つではないかと考えている。

1.マルチモーダル

2.生成モデルの構築

前にも書いたが、マルチモーダルとは各感覚器からの入力を上位層で、同じ抽象概念に結びつけることである。別表現では、複数の種別の情報で同じ抽象概念を持つものを統合化することとも言える。人間は、マルチモーダルの度合いが高まれば高まるほど、その概念、物体に対する理解が高まると考える。逆に言えば、「理解」とは、その抽象概念を様々な具体例で表現できるということである。マルチモーダルで学習をするには自律性が不可欠であり、そのためには生成モデルの構築が必要と考える。

 これまでの脳神経科学、ベイジアンネットワーク理論、ニューラルネットワークの研究から、人間の認知過程には、「認識モデル」と「生成モデル」が深く関わっていることがわかってきた。

それぞれの関係を具体的に示すと。

  認識モデル  この物体・概念は、これはこういうものだ(認識)

  生成モデル  物体・概念の認識が正しければ、これは振る舞うはずだ(確認)

という関係にあり、これらの2つのモデルは学習することで精度を高めていく。その学習は連動していて、連動することで、自律的に学習することができると考える。

その学習過程をわかりやすく例えると、try&errorである、try&errorの本質は、脳内において対象の特徴・概念を行動・働きかけを通じて認識し、認識することで適切に行動・働きかけが可能となるように生成モデルを構築し修正することである。

この活動を意識的にかつ組織的に実行しているのが「PDCA」と言える。P(プラン)は、ゴールを想定し、現在と、ゴールとの差を認識し、そこに至る過程をモデル(通常は計画)として生成する。粒度に応じてブレイクダウンしモデル化する。D(実行)段階に応じ、C(チェック、認識)し、その誤差を元に、A(アクション)でモデルを修正する。

現状の人工知能は認識モデルの構築が主となっているが、今後、様々な概念を守る地モーダルで自律的に学習により獲得し、より拡張、高性能、高精度化していくためには、生成モデルの技術の進展が必要不可欠考えている。

社会のブラックボックス化

25日夜、NHKスペシャルの「人工知能 天使か悪魔か 2017」を見た、この題材は2016年に続くものであり、昨年も見た記憶がある。昨年はAlphaGoが囲碁チャンピオンを破った直後でもあり、D.ハサビスへのインタビューやPFNとToyotaの取り組みも紹介され非常に興味深かった記憶がある。

今年は、将棋AIとプロ棋士の対戦を取り上げ、以下にAIが人間の考えが及ばない指し手を打ってくるかという面や、日本国内で業務にAIを取り入れる企業を紹介し、より社会に浸透しつつあるという内容であった。わかりやすく編集されており将棋ファン以外でも興味深く見ることができた。

・AI将棋(ポナンザ:日本)

・AIタクシー客予測システム(日本)

・AI株取り引きシステム(日本)

・AI再犯予測(アメリカ)

・AI人評価システム(日本)

何よりMCの羽生善治の取材記が、的確でよかった。個々の内容は記述しないが、要約すると、

今後、AIが社会で応用されるにあたり、その思考過程がブラックボックスであり、人間がそれを理解できないことは大きな問題になるであろう。また、社会に浸透するにつれ使いこなすことを求められることになると思われる。しかし、「仮想敵」のように捉えてしまうのは得策ではなく、AIのやり方に見習うことで人間も進歩でき、うまく活用すれば人間にとって大きな力になるはず。

というものであった。

分野は違えど、さすが天才は違うなあという思いである。

以前から思っていたが、なぜ人間はAIに理由を説明させたがるのか?自分の想定以上の成果が上がった場合に、自分の納得させるためなのか?、自分が将来同じ様な考えができるようにしたいからなのか?

後者のように自分を高めるモチベーションとするのは非常に良いと思われる。実際、将棋界もその方向でAIを利用して新たな打ち手を考えるような方向に向かっていると聞く。

いずれにしても、以前のブログにも書いたが、たとえAIが自らの判断根拠を自らの言葉で話せる様になったとしても、それを人間が理解するのは不可能なのではないかと考える。(当然、AIのアルゴリズムは人間が理解できるが、そのアルゴリズムが大量のデータをどのように解釈したかというのを理解するのは到底困難である。)

ブラックボックスは不安だという声もあるが、AIに限らず、この社会はすでに多くがブラックボックスなのである。それでも多くの人間は疑問をいだかずに信用して問題なく生活している。例えば、今話題のフェイクニュースなどがいい例である、ネットにある、もっともらしく見えるものは信用し、その入手経路や信頼性などは考えない。これをブラックボックスと言わずして何をそういうのか?という思いがある。

恐らくAIが判断したといわずに、誰かカリスマ性がある人間がAIの出力を言葉で自分の考えとして伝えたならば、その判断基準が「勘や経験」と言ってもそれ以上誰も追求しないであろう。

AIはその高性能の処理能力と大量データを「学習」という「経験」を積むことで、どんなベテランよりも精度が高い「勘」を身につけたという説明であれば理解できるのであろうか?

脳機能としてのマルチモーダル

昨日の記事で、AIとしてのマルチモーダルモデルについて書いたが、実際の脳としてはどうなのかということについて書いてみたい。大脳新皮質には、言語、視覚、聴覚、運動などのそれぞれ機能に応じた処理をする50以上の部位が局在しそれらが連動して意識的、無意識的な人間の判断を行なっている。それらの局在部位を表したものの代表はブロードマンの脳地図である。

これは、東京で3月に開催されたシンギュラリティサロンで電気通信大学の倉重さんが説明していたことだが、被験者にカナヅチの絵を見せ、その時の脳の活動の状況をfMRIで測定すると、視覚野だけでなく、同時に聴覚野、運動野も活動(発火)する様子が捉えられた、つまり、これは絵の形状を認識するだけでなく、同時に叩いたときの音や叩く時の反動や重さについても連想する、ということである。

つまり、これは、感覚器から脳に入力された情報が、関係するモデルが構築されている部位に伝送され脳神経細胞が励起されるというモデルが脳内に構築されていることを示していると考えられる。

人間の脳は、常にマルチモーダルモデルで学習を実施し、認識、推論しているのである。