画像や映像に写っている物だけでなく場面全体の状況も認識する人工知能をMITで研究開発中

MITのComputer Science and Artificial Intelligence Laboratory（コンピュータ科学と人工知能研究所）の研究プロジェクトは、画像や映像から物を認識し、さらに、その場の状況を認識する。

人間が画像を見ると、そこで今何が起きているのかをおおむね直観的に判断できる。しかし今のコンピュータビジョンや機械学習システムは、それが苦手（にがて）なため、車の自動運転とか荷物の配達などのインテリジェントなシステムの進歩を阻んでいる。状況認識に取り組んだMITの研究者たちは、これまであったシステムよりも33%高いパフォーマンスを実現したという。

今週彼らが発表した論文によると、その彼らのシステムは、画像を見て、そこで何が行われているかを判断するだけでなく、その状況を構成する個々の物も認識する。つまり、全体の認識だけでなく、個別の認識もできる。

おもしろいのは、研究者たちは自分たちの状況認識技術が約50%の認識精度を達成した理由を、正確に把握していない（なお、人間の状況認識精度は約80%）。とにかくそのシステムは画像中の何らかの視覚的特徴を拾って、それらを返しているのだ。

http://jp.techcrunch.com/2015/05/09/20150508ai-project-designed-to-recognize-scenes-surprises-by-identifying-objects-too/

関連