このブログのタイトルにもなっている「シンギュラリティ」は、2045年に来るとアメリカの未来学者レイ・カーツワイルが著書で書いてからもう10年以上経っている。
最近、AIブームということもありメディアで”AI”という言葉を見聞きしない日はない。弊社もAIの事業を展開する企業としてはこの分野が注目されるのは非常に嬉しい(投資が増えるともっと嬉しい)。
しかし、一方で昨今の2045年までのタイムスパンを考慮しない過剰なまでの期待感には違和感を感じてもいる。国でもあと数年で、自ら人間に質問ができるAIを開発するという計画がでてきている。様々なセンサーが発達してきているので、カメラやマイクで人間の表情や声の変化を計測し、AIで感情を認識することは可能と思われる。ただ、状況に合わせた言葉を生成するのはかなり難しいのではないかと考える。現在のいわゆるチャットボットは、相手の言葉をテキストに変換し、その中のキーワードを抽出し、そのキーワードと関連性が強い、会話パターンをあらかじめ登録されたデータから選択し、返事として返す、というのが一般的な流れである。各社のAI技術の見せ所は、キーワード抽出から関連性が強い会話パターンの選択までである。特に難しいのが、”あらかじめ登録されたデータ”ではなく、人間のように”都度、その場の状況に合わせて会話パターンを生成する”という流れである。
これは2つの面で難しい
ひとつめは、返事の方針というか、何を相手に話すかの判断である。これは”話す”という動作とは別の判断であり、通常の人間であれば、
・相手の現在の感情判断(表情や声、動作で認識)
・それまで文脈、経緯
を参照し
・話の内容を理解し
・相手の目的を察し
・自分の利害関係を判断し
・適切な返答や問いかけを抽出する
という流れを瞬時に無意識に実行している。
このようなことは、その人間の経験にも依存しており、AIに代替させる場合、どのようなレベルを期待するかということを定める必要がある。また、そもそも現在のAI技術がこのような多様・多面的な判断をできるようになるために、どれだけの学習データと学習時間が必要になるか、パターンマッチングだけで良いのか、学習可能なのかということについては不明な状況である。
2番目は、判断結果をどのような文として表現するかという問題である。この辺りは、現在でも、RNN(リカレントニューラルネットワーク)というAI技術を用い、自動で文を生成する研究開発が進んでいるが、精度という面についてはまだまだである。しかし、こちらについては人間についても、判断結果と文のパターンマッチッグとおおよそ考えられるため判断結果に対応した学習コーパスが揃えば時間が解決すると予想される。
上記をもっと端的に言うと、現在のAIは”認識”することには長けてきたが、”理解”するには、まだ不十分であると言える。(この違いについては次回に記載する。)
本日のMITレビューの記事に、米国スタンフォード大学の人工知能研究所の所長からGoogleの研究者に転身した研究者のコメントがあり、そのコメントが上記と同様の現在のAI研究の方向性を示している。一部抜粋を掲載する。
——AIをより人間中心にするにはどのようにすればよいでしょう?
「現在のAIの定義とは、部屋が燃えていても完璧にチェスを指せる機械である」という、70年代に書かれた素晴らしい名言があります。これはAIの限界をとてもよく言い当てています。次世代AI研究で浮かび上がってくるのは、より有用で便利な機械を作ろうとすれば、文脈の理解に立ち戻る必要がある、ということです。知識の抽出と推論の強化に着手しなければなりません。これが何より重要な段階なのです。