社会のブラックボックス化

25日夜、NHKスペシャルの「人工知能 天使か悪魔か 2017」を見た、この題材は2016年に続くものであり、昨年も見た記憶がある。昨年はAlphaGoが囲碁チャンピオンを破った直後でもあり、D.ハサビスへのインタビューやPFNとToyotaの取り組みも紹介され非常に興味深かった記憶がある。

今年は、将棋AIとプロ棋士の対戦を取り上げ、以下にAIが人間の考えが及ばない指し手を打ってくるかという面や、日本国内で業務にAIを取り入れる企業を紹介し、より社会に浸透しつつあるという内容であった。わかりやすく編集されており将棋ファン以外でも興味深く見ることができた。

・AI将棋(ポナンザ:日本)

・AIタクシー客予測システム(日本)

・AI株取り引きシステム(日本)

・AI再犯予測(アメリカ)

・AI人評価システム(日本)

何よりMCの羽生善治の取材記が、的確でよかった。個々の内容は記述しないが、要約すると、

今後、AIが社会で応用されるにあたり、その思考過程がブラックボックスであり、人間がそれを理解できないことは大きな問題になるであろう。また、社会に浸透するにつれ使いこなすことを求められることになると思われる。しかし、「仮想敵」のように捉えてしまうのは得策ではなく、AIのやり方に見習うことで人間も進歩でき、うまく活用すれば人間にとって大きな力になるはず。

というものであった。

分野は違えど、さすが天才は違うなあという思いである。

以前から思っていたが、なぜ人間はAIに理由を説明させたがるのか?自分の想定以上の成果が上がった場合に、自分の納得させるためなのか?、自分が将来同じ様な考えができるようにしたいからなのか?

後者のように自分を高めるモチベーションとするのは非常に良いと思われる。実際、将棋界もその方向でAIを利用して新たな打ち手を考えるような方向に向かっていると聞く。

いずれにしても、以前のブログにも書いたが、たとえAIが自らの判断根拠を自らの言葉で話せる様になったとしても、それを人間が理解するのは不可能なのではないかと考える。(当然、AIのアルゴリズムは人間が理解できるが、そのアルゴリズムが大量のデータをどのように解釈したかというのを理解するのは到底困難である。)

ブラックボックスは不安だという声もあるが、AIに限らず、この社会はすでに多くがブラックボックスなのである。それでも多くの人間は疑問をいだかずに信用して問題なく生活している。例えば、今話題のフェイクニュースなどがいい例である、ネットにある、もっともらしく見えるものは信用し、その入手経路や信頼性などは考えない。これをブラックボックスと言わずして何をそういうのか?という思いがある。

恐らくAIが判断したといわずに、誰かカリスマ性がある人間がAIの出力を言葉で自分の考えとして伝えたならば、その判断基準が「勘や経験」と言ってもそれ以上誰も追求しないであろう。

AIはその高性能の処理能力と大量データを「学習」という「経験」を積むことで、どんなベテランよりも精度が高い「勘」を身につけたという説明であれば理解できるのであろうか?

脳機能としてのマルチモーダル

昨日の記事で、AIとしてのマルチモーダルモデルについて書いたが、実際の脳としてはどうなのかということについて書いてみたい。大脳新皮質には、言語、視覚、聴覚、運動などのそれぞれ機能に応じた処理をする50以上の部位が局在しそれらが連動して意識的、無意識的な人間の判断を行なっている。それらの局在部位を表したものの代表はブロードマンの脳地図である。

これは、東京で3月に開催されたシンギュラリティサロンで電気通信大学の倉重さんが説明していたことだが、被験者にカナヅチの絵を見せ、その時の脳の活動の状況をfMRIで測定すると、視覚野だけでなく、同時に聴覚野、運動野も活動(発火)する様子が捉えられた、つまり、これは絵の形状を認識するだけでなく、同時に叩いたときの音や叩く時の反動や重さについても連想する、ということである。

つまり、これは、感覚器から脳に入力された情報が、関係するモデルが構築されている部位に伝送され脳神経細胞が励起されるというモデルが脳内に構築されていることを示していると考えられる。

人間の脳は、常にマルチモーダルモデルで学習を実施し、認識、推論しているのである。

Googleから「すべてを学ぶ1つのモデル」が発表

我々が、ものを考える際は、様々な記憶やイメージに思い浮かべながら考えている。たとえば、山に行き、ホトトギスの鳴き声を聞けば、同時に過去に見たホトトギスの画像や、実物の記憶、その聞いた季節や周辺の様子、場合によっては、ホトトギスの漢字表記(杜鵑、不如帰など)も思い浮かべる。それらは、すべて脳の「学習」機能によるものと考えられるが、同時に学習しているわけではない、それらの情報(エビデンス)は別々のタイミングで、視覚や聴覚などのセンサーから脳に入力され学習される。その際に、次々と学習後のモデルが統合されていくと考えられている。その様に様々な形態(モード)を持つモデルは「マルチモーダルモデル」と呼ばれている。

近年のディープラーニングでは学習による認識の精度は高くなっているが、その結果のモデルは、機械翻訳や、音声認識、画像認識、といった個々の識別の「シングルモードモデル」に留まっている。

しかし、今月、Googleから(DeepMind社ではない)そのような「マルチモーダルモデル」の学習に向かうと思われる論文が発表された。

一つの事象を多面的に捉えているというわけではないが、異なるセンサー(感覚器)からの入力による学習を同じモデル(同一のネットワーク上)に実施しても、学習成績が低下することはなく、むしろ向上したという報告である。

これは、ネットワークの規模を大きくすることで単一のネットワークで、様々な認識が可能なAIが実現できるということであり、現状の様な、1ネットワーク、1タスクのような特化型AIではなく、人間のように様々なタスクをこなすことが可能な汎用AIに向かう試みであると考える。

以下、「One Model To Learn Them All」のabstractの翻訳である(Google翻訳による)

深層学習は、音声認識、画像分類、翻訳まで、多くの分野で大きな成果をあげている。しかし、それぞれの問題についてモデルをうまく機能させるには、アーキテクチャーの研究と長時間のチューニングが必要である。本論文では、複数のドメインにわたるいくつかの問題について、良い結果をもたらす単一のモデルを提示する。特に、この単一のモデルは、ImageNet、複数の翻訳タスク、画像キャプション(COCOデータセット)、音声認識コーパス、および英語解析タスクで同時に訓練されている。このモデルアーキテクチャは、複数のドメインのビルディングブロックを組み込んでいる。これには、畳み込みレイヤ、アテンションメカニズム、まばらなゲートレイヤーが含まれている。これらの計算ブロックはそれぞれ、訓練するタスクのサブセットにとって非常に重要である。興味深いことに、ブロックがタスクにとって重要ではない場合でも、それを追加するとパフォーマンスが損なわれることはなく、ほとんどの場合、すべてのタスクでパフォーマンスが向上する。また、データの少ないタスクは他のタスクとの共同訓練に大きな恩恵をもたらすが、大規模なタスクのパフォーマンスはまったく低下しない。

8種類の問題を同時に学習した際(左側)のそれぞれの問題の認識精度と単一問題を学習した際(右側)のそれぞれの問題の認識精度の比較では、左側がわずかに向上しているのが見て取れる。

https://arxiv.org/abs/1706.05137

ディープラーニングが何を考えているか?ということを人間が理解できるのか?

先日、ここ数ヶ月依頼されていた、医薬系企業向けのディープラーニング構築と解析のコンサルの目処が立ちクライアントに報告を行った。想像以上に順調に解析が進み、精度も想定以上に高いシステムが構築できたので、クライアントには非常に好評であった。

入力データ空間が1万次元を超え、かつ、画像の画素数の様なデータの性質が一様なものではなかったため、パラメータチューニングが非常に複雑で期間を要するのではないかと想定していたが、予想に反し短期間でLOSS、ACCが収束し精度も向上できた。

この業務を通じて、AIに見えて人間に見えない世界があるのではないかということを考え始めた。

私は、人間は自分が理解できないことを「複雑」と解釈する傾向があると思う。人間が「複雑」と考えていることの要因はいくつかに分類されるが、主なものは以下の4タイプではないかと私は推察する。

1.規則性はあるが多数の要素が関係し、その関係性が高次元空間で表現されるため想像できない問題

2.規則性はあるが、雑音が多く雑音に規則性が埋もれていれ関係性が把握しにくい問題

例)中長期天気予報など

3.規則性はあるが、規則性が緩いため把握には習熟が必要な問題

例)言語の習得や、対話など

4.要素及びシステム境界も不明なくらい複雑な問題

例)株式投資などの金融システムの予測

どれも過去から現在まで、シミュレーション技術や機械学習、人工知能などの技術によって問題解決に関する取り組みが図られている。

その中で、現状、解決に対する取り組みが少ないと考えられるのは、1のタイプではないだろうか。今回弊社が取り組んだ問題も結果的には1のタイプに分類される。取り組みが少ない原因としては、これまでの多くの研究では、とりうる解法の見通しがある程度つく、もしくは人間の頭でイメージが可能な解法で解決されることが多いが、1のタイプのように高次元空間への写像関係を導く問題については解決の見通しについて、なかなか人間がイメージをもつことが難しいためである。

SVM(サポートベクターマシン)やディープラーニングなどの機械学習が得意とするものそのような高次元空間への写像関係探索による特徴抽出である。これらは高次元の写像を最適化解析を含む学習や、超平面への写像により線形化すると言われる高度な数理学的な手法を適用している。したがって、よく言われるように、ディープラーニングが何をしているのかを理解するには、それらの高次元や超平面への写像の状況を人間が理解する必要があるが、現段階ではそれらをそのまま理解することは困難である。そのため、現在、「AIが何を考えているかわかるようにすることが課題」という発言、記事を多く見かける。しかし、そのようなことが可能なのであろうか、私はしばしば、「可視化」という言葉で表現されるような、せいぜい3次元空間しかイメージできない一般人が理解できるようにAIの内部の情報を縮退し表現、理解することは、そもそも無理なのではないだろうか?と考える。

そういう意味では、すでに機械が人間を超えるという「シンギュラリティ時代」は始まっていると考えても過言ではないと考える。ただし、世間が心配しているようなAIの暴走については、AIが自律的に課題を設定し解決するといったことができるようにならない限りありえない。

そういった心配をするよりは、1のタイプの問題に対し積極的に機械学習、AIを活用し、問題解決を図ることで人類の進歩を促進するべきではないだろうか。