現時点ではディープラーニングにより画像認識をする場合、大量の学習データが必要となる。さまざまな改良がされているが人間が同様の学習をし認識をするために必要とする画像(1~10程度)と比較すると圧倒的に多くを必要とする。
これを持って、ディープラーニングはまだ人間に及ばないとする研究者もいる。
しかし、本当だろうか、人間とディプラーニングの学習環境の違いを考えて見たい。ディープラーニングはある画像群を学習・認識するために初期値を与えられ、ゼロからその画像群のみを学習する。それに対して人間は、生まれてから(正確には視覚系が正常に動き出してから)ずっと様々な画像を見続け、学習・記憶し続けているのである。犬や猫は見なくても、直線や曲線の様々なバリエーション、色彩についても視覚し、学習・記憶し続けているのである。人間は、初めて犬や猫を見たときに、それらの画像を構成する様々な形状の知識を活用し組み合わせることで犬や猫の特徴量を捉え、認識すると考えられる。そう意味からも、現状のディープラーニングの使われ方は特化型であり、人間の脳は汎用的であると言える。
将来的に、ディープラーニングの階層ごとのニューロン数を膨大な数にしても学習演算が可能になれば、多様な物体を同じDNN(Deep Neural Network)に学習・記憶させることで人間の脳の様に汎用的な認識が可能になるのではないかと思われる。
その研究の一端が以下の様にすでに開始されている。これは、「ロンドン」の地下鉄の最適経路探索をさせるDNNを「記憶させ」それを「パリ」の地下鉄の最適経路探索の学習に「活用」しようとするアルゴリズムである。
グーグル傘下のDeepMind、「人間のように記憶する」次世代AIを発表
http://wired.jp/2016/10/18/deepmind-dnc/