YouTubeにアップロードされている動画から、ランダムに取り出した200×200ピクセルサイズの画像を1000万枚用意し、これを用いてDeep Learning を行った(3%前後の画像に人間の顔が含まれていた。猫が含まれる画像もたくさんあった)。
Deep Learning とは、ここ最近になってその有効性が注目されている新しい機械学習の手法で、多段階のニューラルネットワークを構成する。ニューラルネットワークの最初の層の入力は各画素(200×200=40,000)のRGBの値で、9つの階層を構築した。1000台のコンピュータで3日間かけて学習を行った。その結果、人間の顔、猫の顔、人間の体の写真に反応するニューロンができた