ということで、毎週木曜日をTEDの日にして、動画見て要約するということをやっていこうと思う。第一回目はスタンフォードの人工知能ラボのディレクターを務めるFei-Fei Li氏のスピーチだ。
要約
コンピュータがオブジェクトを認識するのは難しい。
コンピュータ上では画像は二次元配列上に配置された意味のない数字にすぎないからだ。
彼女はコンピュータビジョンと機械学習の研究を行ってきた。
コンピュータに物を認識させる、人を判別させる、物の関連を理解させる、物の動きを理解させる、物体の意識を理解させるというのが最終的な目標だ。
最初のステップはコンピュータに物体を認識させることだった。
例えば猫を認識させることを考える。最初のアプローチはコンピュータに猫の形を教えることだった。これはうまくいかなかった。変な体勢の猫や、隠れている猫をうまく認識させることができなかったのだ。
8年前、ブレークスルーがあった。
子供はどのようにみることを覚えるのだろうか?
彼らは、200ミリ秒に1度新しい画像を見ている。3歳になるころには数億枚もの画像を見ていることになる。
これをコンピュータビジョンにも適用できないだろうか?
よりよいアルゴリズムの開発に集中するよりも、アルゴリズムに大量の良質の訓練データを与えることに集中したほうがよいのではないか?
それから大量の画像を集めるプロジェクトを始めた。
インターネット上で数十億の画像を集めた。クラウドソーシングを使い画像のラベリングを行った。2009年にはIMAGENETプロジェクトは、英語でラベリングされた1500万の画像を有するに至った。
訓練データが集まったところでアルゴリズムだ。IMAGENETのデータは、あるアルゴリズムととても相性がよかった。Convolutional Neural Networkだ。
IMAGENETとConvolutional Neural Networkの組み合わせは大成功だった。
猫の認識はもちろんのこと、画像中の車のモデル、年式さえも正しく認識できるようになった。
これでコンピュータは人間の能力に追いついたのだろうか?
いや、まだオブジェクトが認識できるようになったにすぎない。
次のステップは画像を見せて画像の内容を文章で説明できるようにすることだ。
画像の一部分を単語と結びつけるようなモデルを使って、コンピュータに画像と言語の関連を学習させた。画像から人間が使う自然な言語を自動で生成する世界最初のコンピュータの完成だ。
”象の隣に男性が立っている”
”飛行場の滑走路に大きな飛行機がとまっている”
上記のような文章をコンピュータが画像から自動で生成することができるようになった。
次のステップは、画像の中の物体に関する知識や補足情報を表現すること、画像の中の人間の感情や思想を認識させることだ。
コンピュータビジョンの発達により、医療、自動運転技術、災害時に活動するロボット、人類未踏の地の開拓への応用が期待される。
0 件のコメント:
コメントを投稿