Googleから「すべてを学ぶ1つのモデル」が発表

我々が、ものを考える際は、様々な記憶やイメージに思い浮かべながら考えている。たとえば、山に行き、ホトトギスの鳴き声を聞けば、同時に過去に見たホトトギスの画像や、実物の記憶、その聞いた季節や周辺の様子、場合によっては、ホトトギスの漢字表記(杜鵑、不如帰など)も思い浮かべる。それらは、すべて脳の「学習」機能によるものと考えられるが、同時に学習しているわけではない、それらの情報(エビデンス)は別々のタイミングで、視覚や聴覚などのセンサーから脳に入力され学習される。その際に、次々と学習後のモデルが統合されていくと考えられている。その様に様々な形態(モード)を持つモデルは「マルチモーダルモデル」と呼ばれている。

近年のディープラーニングでは学習による認識の精度は高くなっているが、その結果のモデルは、機械翻訳や、音声認識、画像認識、といった個々の識別の「シングルモードモデル」に留まっている。

しかし、今月、Googleから(DeepMind社ではない)そのような「マルチモーダルモデル」の学習に向かうと思われる論文が発表された。

一つの事象を多面的に捉えているというわけではないが、異なるセンサー(感覚器)からの入力による学習を同じモデル(同一のネットワーク上)に実施しても、学習成績が低下することはなく、むしろ向上したという報告である。

これは、ネットワークの規模を大きくすることで単一のネットワークで、様々な認識が可能なAIが実現できるということであり、現状の様な、1ネットワーク、1タスクのような特化型AIではなく、人間のように様々なタスクをこなすことが可能な汎用AIに向かう試みであると考える。

以下、「One Model To Learn Them All」のabstractの翻訳である(Google翻訳による)

深層学習は、音声認識、画像分類、翻訳まで、多くの分野で大きな成果をあげている。しかし、それぞれの問題についてモデルをうまく機能させるには、アーキテクチャーの研究と長時間のチューニングが必要である。本論文では、複数のドメインにわたるいくつかの問題について、良い結果をもたらす単一のモデルを提示する。特に、この単一のモデルは、ImageNet、複数の翻訳タスク、画像キャプション(COCOデータセット)、音声認識コーパス、および英語解析タスクで同時に訓練されている。このモデルアーキテクチャは、複数のドメインのビルディングブロックを組み込んでいる。これには、畳み込みレイヤ、アテンションメカニズム、まばらなゲートレイヤーが含まれている。これらの計算ブロックはそれぞれ、訓練するタスクのサブセットにとって非常に重要である。興味深いことに、ブロックがタスクにとって重要ではない場合でも、それを追加するとパフォーマンスが損なわれることはなく、ほとんどの場合、すべてのタスクでパフォーマンスが向上する。また、データの少ないタスクは他のタスクとの共同訓練に大きな恩恵をもたらすが、大規模なタスクのパフォーマンスはまったく低下しない。

8種類の問題を同時に学習した際(左側)のそれぞれの問題の認識精度と単一問題を学習した際(右側)のそれぞれの問題の認識精度の比較では、左側がわずかに向上しているのが見て取れる。

https://arxiv.org/abs/1706.05137

ディープラーニングが何を考えているか?ということを人間が理解できるのか?

先日、ここ数ヶ月依頼されていた、医薬系企業向けのディープラーニング構築と解析のコンサルの目処が立ちクライアントに報告を行った。想像以上に順調に解析が進み、精度も想定以上に高いシステムが構築できたので、クライアントには非常に好評であった。

入力データ空間が1万次元を超え、かつ、画像の画素数の様なデータの性質が一様なものではなかったため、パラメータチューニングが非常に複雑で期間を要するのではないかと想定していたが、予想に反し短期間でLOSS、ACCが収束し精度も向上できた。

この業務を通じて、AIに見えて人間に見えない世界があるのではないかということを考え始めた。

私は、人間は自分が理解できないことを「複雑」と解釈する傾向があると思う。人間が「複雑」と考えていることの要因はいくつかに分類されるが、主なものは以下の4タイプではないかと私は推察する。

1.規則性はあるが多数の要素が関係し、その関係性が高次元空間で表現されるため想像できない問題

2.規則性はあるが、雑音が多く雑音に規則性が埋もれていれ関係性が把握しにくい問題

例)中長期天気予報など

3.規則性はあるが、規則性が緩いため把握には習熟が必要な問題

例)言語の習得や、対話など

4.要素及びシステム境界も不明なくらい複雑な問題

例)株式投資などの金融システムの予測

どれも過去から現在まで、シミュレーション技術や機械学習、人工知能などの技術によって問題解決に関する取り組みが図られている。

その中で、現状、解決に対する取り組みが少ないと考えられるのは、1のタイプではないだろうか。今回弊社が取り組んだ問題も結果的には1のタイプに分類される。取り組みが少ない原因としては、これまでの多くの研究では、とりうる解法の見通しがある程度つく、もしくは人間の頭でイメージが可能な解法で解決されることが多いが、1のタイプのように高次元空間への写像関係を導く問題については解決の見通しについて、なかなか人間がイメージをもつことが難しいためである。

SVM(サポートベクターマシン)やディープラーニングなどの機械学習が得意とするものそのような高次元空間への写像関係探索による特徴抽出である。これらは高次元の写像を最適化解析を含む学習や、超平面への写像により線形化すると言われる高度な数理学的な手法を適用している。したがって、よく言われるように、ディープラーニングが何をしているのかを理解するには、それらの高次元や超平面への写像の状況を人間が理解する必要があるが、現段階ではそれらをそのまま理解することは困難である。そのため、現在、「AIが何を考えているかわかるようにすることが課題」という発言、記事を多く見かける。しかし、そのようなことが可能なのであろうか、私はしばしば、「可視化」という言葉で表現されるような、せいぜい3次元空間しかイメージできない一般人が理解できるようにAIの内部の情報を縮退し表現、理解することは、そもそも無理なのではないだろうか?と考える。

そういう意味では、すでに機械が人間を超えるという「シンギュラリティ時代」は始まっていると考えても過言ではないと考える。ただし、世間が心配しているようなAIの暴走については、AIが自律的に課題を設定し解決するといったことができるようにならない限りありえない。

そういった心配をするよりは、1のタイプの問題に対し積極的に機械学習、AIを活用し、問題解決を図ることで人類の進歩を促進するべきではないだろうか。

 

 

企業にて誰がAI化を担うか

ブログで以前にも書きましたが、今はAIブームということで、ちょっとした業務システムを構築するような感覚で特化型AI(以降AI化とする)の採用を考える経営層が多いようです。これは伝聞ではなく、現実に弊社(小規模企業にも関わらず)に様々な分野の企業から自社向けにコア業務をAI化できないかという打診があります。その中にはご希望が弊社の技術分野と一致しお手伝いさせていただくところまで行く案件もありますが、一致せず最初の段階でお断りさせていただく案件もあります。そういった交渉をしていく過程で気になった点があります。それは、AI化を日本独特の”SIer文化”の延長上で考え、外部に丸投げしようと考えている企業が意外と多いということです。

一般的に言われていますが、この”SIer”という言葉も業態も日本独特のことで、欧米にはないということです。欧米にあるのはソリューションベンダーで、自社が必要とするシステムを構想、設計し、ソリューションを選定し、プログラムを製造するのはほとんど自社で採用したPMもしくはSEになります。つまり日本風にいうとすべて内製することになります。
そのため、様々な現場等とのコミュニケーションをとりながらの全体を見て柔軟性がある開発が可能になると言われています。

エンジニアにとっては職業の流動性もあるので、ある会社のシステム開発のために採用されても、その開発が完了されれば、次にシステム開発を計画している会社に転職するということもあります。その際に良い実績があれば高額の報酬で採用されるということで、日本のエンジニアに比較し欧米のエンジニアの年収が高い一因とも言われています。

ところが日本ではシステム開発となると、”SIer”と呼ばれるシステム開発会社に企画、要件定義以外の業務を丸投げすることが従来より行われています。一般的に初期の企画、要件定義についても満足な形式ではなく、その曖昧さからしばしば問題が発生するため、その工程もコンサルタント会社に任せるという場合さえあります。つまり、会社のコアになるシステム開発を他人任せにするということで現在までやってきています。

それでもなんとかなっているのは、日本人の勤勉さと、馴れ合いで、「契約範疇外だけどなんとかしてよ」、「追加オーダーだけどなんとかしてよ」、「なんとか動かしてよ」、「まあしょうがないなあ・・」ということがまかり通って来たからに他なりません。

上記を今更やめましょうと言う気はさらさらありませんが、AI化でも同じ感覚はさすがにまずいでしょう、というのが懸念点です。

業務のシステム化とコア業務のAI化の大きく異なる点としては

1)AI化は出力に相関性が高い入力がないと精度が確保できない。
通常のシステム開発は、業務データ加工や業務データ連携の自動化が目的なので、主に従業員間のコミュニケーションといった陽にでている情報のデータ化、データ処理が中心になるのに対し、AI化は人間の思考過程を取り扱うものであり”陰”の動きをAI内部で実現するということになります。したがって、その入力に必要とされ、相関が高い情報は必ずしも明確でなく、できるだけ大量で場合によっては広範囲のデータが必要になります。その量や種別によって、設計や前処理作業時間も変化しますが、どれぐらいが必要か、というのは初期では判断がつかないので、外注先での作業工数の見積もりは困難と思います。

2)AI化では何をもって検収条件とするのか
システム開発では、システム要件が発注者から提示され、その要件を満足するか否かを確認する試験を実施し、それらの試験で正常に動作すれば納入、検収となります。
しかし、AIでは100%の精度を保証するのは容易ではありません。一定までの精度を確保するような学習データ量と学習期間がどれぐらい必要かといった予測すら困難です。また、交差検定という考えもありますが、それでいえることは学習データと異なるデータ群での検定ではこうなった、ということです。”かならずその精度がでる”ということは言えないです。それを発注者が理解した上で検収する必要があります。瑕疵という定義も当てはまるのか微妙ですね。

3)エキスパートなどの人間の知識、判断等の置き換えが狙いだが、当の依頼者が判断基準を説明できていないものをAI化しようとしている場合がある
コア事業をエキスパートの判断に依存していて、それをAI化したいという話がたまにありますが、そのノウハウを持っているが競争力なのに、その明示的な蓄積もなく、それをAIという更なるブラックボックスにしてしまって(しかもその作業過程を外注して)大丈夫ですか?という心配があります。精度向上や学習によるノウハウのアップデートとかをどうやってするのかとか考えないのでしょうか?

ということをつらつらと考えてみました。
弊社のようなAI化を推進しようとする会社がこんなことをいうのは自己矛盾と思われるかもしれませんが、”SI”のような考え方では継続的にAIを活用するのは難しいと考えざるをえず、各会社は自社内でAI化を推進するデータサイエンティストを採用または育成することで継続的かつ効果的に業務にAI が活用できるのではないかと考えます。

その実現に向け、”丸投げ”ではなく弊社の様なサービスをうまく組みわせてAI化を推進できるようなデータサイエンティストをそれぞれの会社が採用、育成することを期待します。

AIブームの中身

現在、日本では本格的にAIブームである。ただし、過去の80年代のブームとは異なり実際の内容的にはAIを利用するところまで行き着いていない。また、AIの研究についても過去のブームというにはほど遠い状況である。

では、どういうブームなのかというと、簡単に言うと「AIが普及することについて考えてみましょう」ブームである。この中には「AIが普及した世の中を考えましょう」や「AIはどうあるべきか」、「AIの脅威について考えてみましょう」、「AIに仕事を奪われるのでは?」というものも含まれる。ちょっと情報のアンテナを高くしていると驚くほどたくさんの、AIに関する内容を含む講演会やセミナー、シンポジウムが日々行われていることがわかる。

別に検討、議論することは悪いことではないが、Google翻訳などの一部のサービスでしか具体的に普及しているAIがない状況で、かつ、日本がAI開発で大きく遅れている状況にも関わらず、日本でAIはどうあるべきかとかAIの脅威について考えても、何ら影響を与えることもできず机上の空論に終わるのではないかという違和感を感じざる得ない。

しかも内容が、だから日本もAI研究促進しましょう、なら理解できるが、だからAI反対やAIなんてできっこない、というのは「技術革新競争から降りましょう」ということではないかと考える。

以前、知り合いのデータサイエンティストのエバンジェリストが言っていたが、「今はAIがどうとか四の五の言っているときではなくとっと研究開発をやらなければいけない時期に来ている」、ということである。

80年代は日本経済の最盛期であったこともあり、企業の研究開発費用もふんだんにあり、かつ、技術革新の元に数多くの研究者も抱えていたため、いち早く製品化もでき、研究も促進された。現在のディープラーニングの基盤になっているAutoEncoderアルゴリズムは1979年にNHK放送科学基礎研究所の研究者であった福島邦彦博士が開発したネオコグニトロンが元になっていることはあまりにも有名である。

今、議論を活発化させる必要があるのは、「AIが普及することについて考えてみましょう」ではなく「AIを普及させるために必要な研究をどう支援し、どうやってAI研究者を増やすか」だと思う。

 

日本のAIは周回遅れ…杉山将・東京大教授に聞くhttp://www.yomiuri.co.jp/fukayomi/ichiran/20170210-OYT8T50014.html

世界と同じ土俵に立てない? 1年遅れの日本のAI開発

http://jbpress.ismedia.jp/articles/-/49271

汎用AIに向けた「記憶するAI」

現時点ではディープラーニングにより画像認識をする場合、大量の学習データが必要となる。さまざまな改良がされているが人間が同様の学習をし認識をするために必要とする画像(1~10程度)と比較すると圧倒的に多くを必要とする。

これを持って、ディープラーニングはまだ人間に及ばないとする研究者もいる。

しかし、本当だろうか、人間とディプラーニングの学習環境の違いを考えて見たい。ディープラーニングはある画像群を学習・認識するために初期値を与えられ、ゼロからその画像群のみを学習する。それに対して人間は、生まれてから(正確には視覚系が正常に動き出してから)ずっと様々な画像を見続け、学習・記憶し続けているのである。犬や猫は見なくても、直線や曲線の様々なバリエーション、色彩についても視覚し、学習・記憶し続けているのである。人間は、初めて犬や猫を見たときに、それらの画像を構成する様々な形状の知識を活用し組み合わせることで犬や猫の特徴量を捉え、認識すると考えられる。そう意味からも、現状のディープラーニングの使われ方は特化型であり、人間の脳は汎用的であると言える。

将来的に、ディープラーニングの階層ごとのニューロン数を膨大な数にしても学習演算が可能になれば、多様な物体を同じDNN(Deep Neural Network)に学習・記憶させることで人間の脳の様に汎用的な認識が可能になるのではないかと思われる。

その研究の一端が以下の様にすでに開始されている。これは、「ロンドン」の地下鉄の最適経路探索をさせるDNNを「記憶させ」それを「パリ」の地下鉄の最適経路探索の学習に「活用」しようとするアルゴリズムである。

グーグル傘下のDeepMind、「人間のように記憶する」次世代AIを発表

http://wired.jp/2016/10/18/deepmind-dnc/

「人工知能に代わられる主な仕事」について考える(1/2)

MITスローン・スクール、デジタル・ビジネス・センターの研究者2人が2011年に自費出版したRace Against The Machine(日本語訳:「機械との競争」)の未来予測は、アメリカ国内外で大きな反響を呼んだ。
著者の2人は、技術の進歩が速すぎて起きる雇用喪失説の立場をとる。つまり、コンピュータとの競争に人間が負け始めていることこそ、雇用が回復しない真の原因であると主張する。

また、英オックスフォード大学でAI(人工知能)などの研究を行うマイケル・A・オズボーン准教授は、702の職種すべてについて、コンピューターに取って代わられる確率を仔細に試算し論文として発表している。

ここでは、その論文で取り上げられている以下の主な仕事のいくつかについてどれだけコンピュータに変わられつつあるか考えてみた。

■タクシードライバー

現時点では市販されている自動運転が可能な車両を販売しているメーカーはTeslaのみであるが、技術的には日進月歩であり、技術的にはほぼ自動運転は可能になりつつある。したがって、タクシードライバーという職業も自動運転自動車の普及により失われて行く方向にあると考える。

■レジ係

日本国内ではセルフレジも普及してきている。また、RFIDがよりコストが下がれば一瞬で精算が完了することも夢ではない。購入代金の精算についても決済技術が進歩しており、クレジットカード決済だけでなく、指紋認証や顔認証による決済も可能になりつつある。

■税務申告作成者

すでに一部のクラウドにより税理士のチェックの前までは容易に書類作成ができるようになってきているし、レシート画像による証左としての位置づけも認められるようになりつつあり、更に入力作業も簡便になる。最終的に、税理士という資格を保有する人間のチェックではなくAIによるチェックを許可するか否かによるところだと思われる。その過程として、AIがチェックした内容を税理士が確認、申告するという業務フローになることと想定される。

■クレジットカード審査員

インターネット経由の申請であれば、そのデータを過去の取引状況や与信状況と突合し現状人間が審査している部分を統計すれば可能と考えれる。現状でもかなりな部分は自動で審査され、最終確認のみが人間の仕事になっていると思われる。手書き文字についてはディープラーニング等による文字認識でデータ化による前処理が可能となり、こちらも自動化が進むと予想される。

 

「脳の進化的起源を解明 | 60秒でわかるプレスリリース | 理化学研究所」

「これまで段階的に進化してきたと考えられてきた、脊椎動物の脳の各領域の多が、5億年以上前という脊椎動物の進化過程の極めて早い段階に、すでに成立していたことが明らかになりました。」とのこと。

http://www.riken.jp/pr/press/2016/20160216_1/digest/

経産省、IoT推進へ官民でAI専用「非ノイマン型」コンピューター開発

経済産業省は、IoT(モノのインターネット)社会実現に向け、無給電型のデータ収集端末やビッグデータ(大量データ)解析に使う人工知能(AI)専用コンピューターなどの開発に官民で乗り出す。半導体単体の性能向上が限界を迎えつつある中、次世代コンピューターである「非ノイマン型」(用語参照)という方式を採用して性能を高める。IoT産業を振興しつつ、日本の半導体産業の復権にもつなげる考えだ。3月にも公募を開始、研究開発費の半額を補助する。

2016年度予算案に新規で33億円を計上している。企業に事業委託する形とし、採択件数は10件以下となる見通し。無給電型のデータ収集端末は、太陽光や振動による発電で足りる低消費電力型であり、機器に埋め込んだままでも長時間作動し、センサー機能や情報処理を担う。端末の電子部品の回路などを見直し、大幅な消費電力削減を目指す。

AI専用コンピューターでは量子力学に基づく超高性能の「量子コンピューター」や脳神経を模したコンピューターが候補。情報端末への不正アクセスや乗っ取り対策向けの技術開発も進める。

IoTは自動運転や自動インフラ点検、遠隔医療などあらゆる分野で求められている。AIなどの技術向上はめざましいが、情報の蓄積や解析を担うハードウエア面では、半導体の回路の微細化で性能を高めるという従来の手法が限界を迎えつつあり、IoTを推進する上で「ボトルネックになる可能性がある」(経済産業省)。

そこで現行のノイマン型と異なる設計思想である「非ノイマン型」コンピューター開発を進める。また、コンピューターの基本設計が一新されれば、日本企業にとって挽回のチャンスも生まれる可能性がある。

http://j-net21.smrj.go.jp/watch/news_tyus/entry/20160127-09.html

国の研究所からスピンアウトしたスタートアップDescartes Labsは衛星画像の分析データを農業分野などに売る

合衆国政府の研究機関で7年間仕事をした連中がこのほど、深層学習(deep-learning, ディープラーニング)による画像分析を行うスタートアップ(非公開企業)Descartes Labs(デカルトラブス)としてスピンオフし、330万ドルの資金を獲得した。

Descartes Labsが主に行うのは、衛星画像を分析してそこに写っているものを理解し、それらから有意なデータを取り出す仕事だ。Descartes LabsはLos Alamos National Lab(ロスアラモス国立研究所)から昨年8月に公式にスピンオフした。

Descartes LabsのCEO Mark Johnsoはこう言う: “うちがやっているのは、ふつうの画像認識技術ではない。うちでは画像に対して物理学を適用し、犬やコーラの缶を探したりはしない。遠隔探査と天体物理学には共通の部分が多いことが、分かってきた。空でたくさんの写真を撮る場合は、センサが正しく調製されていなければならないし、それらの写真を正しく縫い合わせて、大量の分析をしなければならない[天体物理学]。そしてそのときの望遠鏡を地球方向に向けたら、(地球〜地表に対して)それとまったく同じ問題を抱えることになる[遠隔探査]”。

同社はこれから、地球全体の農業を調べ始める。合衆国などでは農業のデータが充実しているが、そういうところは全地表のごく一部にすぎない。だから、データを衛星の画像に頼ることになる。そしてそうなると、それはお役所の問題ではなくて、Descartes Labsが機械学習を駆使して取り組むビッグデータの問題になる。

衛星から来るデータは、可視スペクトルのものだけではない。たとえば赤外線領域のデータは、農作物を調べるためにとても役に立つ。

ビジネスの展望はすでにはっきりとある。たとえば衛星画像から得られる農業に関するデータは、商品取引などの業界で珍重される。彼らはその限られたデータから、世界中の主要作物の作柄を予測したりするのだ。そういうデータの質を高めることの方が、各作物の栽培や輸出入に関する大雑把なデータよりも、同社のビジネスにとって価値がある。

衛星画像の応用分野はもっと多様だが、同社はとりあえず農業からスタートすることにしている。農業の分野も、同社がやってるような大きな視野のデータは、まだどこにもないからだ。Johnsonによると、330万ドルはプロダクトを世に出すためには十分な額であり、スタートアップにつきものの多少の失敗やその修正も許される、という。

 

 

http://jp.techcrunch.com/2015/05/02/20150501deep-learning-image-analysis-startup-descartes-labs-raises-3-3m-after-spinning-out-of-los-alamos-national-labs/

画像や映像に写っている物だけでなく場面全体の状況も認識する人工知能をMITで研究開発中

MITのComputer Science and Artificial Intelligence Laboratory(コンピュータ科学と人工知能研究所)の研究プロジェクトは、画像や映像から物を認識し、さらに、その場の状況を認識する。

人間が画像を見ると、そこで今何が起きているのかをおおむね直観的に判断できる。しかし今のコンピュータビジョンや機械学習システムは、それが苦手(にがて)なため、車の自動運転とか荷物の配達などのインテリジェントなシステムの進歩を阻んでいる。状況認識に取り組んだMITの研究者たちは、これまであったシステムよりも33%高いパフォーマンスを実現したという。

今週彼らが発表した論文によると、その彼らのシステムは、画像を見て、そこで何が行われているかを判断するだけでなく、その状況を構成する個々の物も認識する。つまり、全体の認識だけでなく、個別の認識もできる。

おもしろいのは、研究者たちは自分たちの状況認識技術が約50%の認識精度を達成した理由を、正確に把握していない(なお、人間の状況認識精度は約80%)。とにかくそのシステムは画像中の何らかの視覚的特徴を拾って、それらを返しているのだ。

http://jp.techcrunch.com/2015/05/09/20150508ai-project-designed-to-recognize-scenes-surprises-by-identifying-objects-too/