Facebookが特許を取得 Instagramで顔認識、位置情報、音声を把握

顔認識、位置情報認識、そしてビデオ撮影の際に録音した音声を認識する技術まで実用に供される時代となりつつあるそうだ。そうしてFacebookは、収集したデータをもとに短編ビデオ(Instagram)で「カバーフレーム」にすべきシーンのサジェスションを行ったり、タグ情報の提案を行ったりするという特許を取得した…
TechCrunch

Facebook、ビデオ中の全フレームを認識し、音声を把握する特許を取得(Instagramのカバーフレーム自動選択にも活用)

顔認識、位置情報認識、そしてビデオ撮影の際に録音した音声を認識する技術まで実用に供される時代となりつつあるそうだ。そうしてFacebookは、収集したデータをもとに短編ビデオ(Instagram)で「カバーフレーム」にすべきシーンのサジェスションを行ったり、タグ情報の提案を行ったりするという特許を取得した。映っている人それぞれに通知を出す等、多くの写真やビデオの中で注目してもらえるようにする技術をいろいろと実現しているようだ。

実のところ、1ヵ月前にこの特許をみたときは、何のためのものであるのかがよくわからなかった。それまでFacebookはビデオ関連にはあまり注力してこなかったからだ。特許書類の図表によれば、撮影したビデオからカバーフレームをセレクトするようなことが書いてあったが、これは当時のFacebookではサポートされていない機能だった。ビデオからカバーフレームを選ぶのに、スマートフォンの全機能を総動員するものらしいとはわかったが、どのような形で実装するつもりなのかがよくわからなかったのだ。

しかしInstagram Videoの発表で、いろいろなことが腑に落ちた。

カバーフレームの重要性

現在、Instagramで動画を撮ると、撮影シーンの中からカバーフレームにするシーンを選択することができるようになっている。これはVineに比べても少々面倒な作業手順追加となっていて、ビデオ投稿を面倒がらせる一因ともなっているようだ。

但し、面倒であるかどうかには関わらず、カバーフレームを選択するというのは非常に重要なステップだ。ビデオの閲覧には、写真を見るよりもより多くの「投資」が必要となるからだ。以前までのInstagramであれば、望みのままの速度で全体を見渡して面白そうなものを見つけ出すことができた。しかしビデオについては、実際に見てみるまで、それが面白いものなのかどうかよくわからないのだ。見ると決断するということは即ち、時間を「投資」することになる。ほんの15秒程度のことではある。しかしモバイル環境でわざわざビデオを再生し、そしてそれがつまらないものであるとなると、多くの時間を損したように感じてしまうものだ。

閲覧者として、事前に「投資効果」をはかるのは、投稿者の人気度合い、ビデオの説明、そしてカバーフレームしかないのだ。

ビデオに含まれる全てのフレームが、ビデオ自体の魅力を伝え得るものでないことは明らかだ。そこで現在のところFacebookは、自動的にビデオの中から15フレームを抜き出し、その中からカバーフレームとして適していそうなものを選ばせるという形をとっている。そのうちのどれがベストなのかを判定する機能は持たず、時系列的に並べて投稿者に選ばせる形となっているのだ。

しかし、新しい特許技術を実装することにより、FacebookないしInstagramではビデオ中から最も面白そうな瞬間を抜き出すことができるようになる。映っている人などから判断し、カバーフレームに適した瞬間を選び出し、また注目を集めるのに適したタグの提案までをも行なってくれる。

笑顔のみならず、笑い声からも「最高の瞬間」を判定

特許が認められたのは2013年4月で、申請されたのは2011年10月のことだ。申請者はFacebookおよび従業員であるAndrew “Boz” BosworthDavid Garcia、およびSoleio Cuervoとなっている。申請タイトルはAutomatic Photo Capture Based on Social Components and Identity Recognition (’80)、Preferred images from captured video sequence (’00)、およびImage selection from captured video sequence based on social components (’65)となっている。

申請技術の基本にあるのは、ビデオフレームをひとつひとつ写真のような分析対象とするというものだ。ここで顔認識やパターン認識などの技術を用いて、映っている人々や文字情報、ブランド、風景などを把握する。

画像キャプチャプロセスにおいて、ビデオフレームを順次走査して…場所(エッフェル塔、金門橋、ヨセミテ国立公園、ハリウッド等)やショップや企業(コーヒーショップ、サンフランシスコ・ジャイアンツ等)、さらにはブランド商品(コカ・コーラ、ルイ・ヴィトンなど)を認識します。

認証プロセスを経て、映っている人物や場所、そしてブランドに対する適格なタグがサジェストされることになる。あるいは誰のニュースフィードに表示すべきかということを判定するために、収集したデータを活用していくこともできる。つまりビデオ中に映っている場所の近くにいる人に対して集中的に配信したり、あるいは場所やブランドないし映っている人と親しい関係にある人に配信するということが自動的に行える。Instagramでは5月から写真に対するタグ付けをサポートしているが、新しい特許技術と結びつくことにより、一層効果的に機能するようになる。

人やプロダクトがタグ付けされることにより、そうした人ないしモノをフィーチャーしたビデオでも、自動的に魅力的なカバーフレーム選択が行われることになる。また特許には、明るさやコントラストを判断してベストフレームを選択したり、また人の表情すら読み取って最適なカバーフレーム選択に利用すると記載されている。大勢が並んで映っているビデオを撮影したようなときは、みんなが晴れやかに笑っている瞬間のフレームがカバーフレームとして選択される。また加速度センサーからの情報も判断して、手振れのないシーンを選択するというようなことも行うそうだ。

いろいろと面白そうな機能が書かれているが、マイクで拾う音声さえも、ビデオの中のベストフレームを選ぶのに利用されるというのが面白い。

フレーム選択プロセスでは、ビデオ中の音声データも分析します(音声認識プログラムなども利用します)。そして重要な瞬間をセレクトするのです(「チーズ!」、「すごい!」、「素晴らしい!」等)

Instagramが「聴覚」を持つというようなことだ。美しい日没の風景などを見て驚嘆の声をあげたり、あるいは笑い声をあげた瞬間をInstagramはキーフレームとして選択することができるようになるわけだ。

Instagram、Vine、その他のサービスの間で争われている主力ビデオサービスの座を巡っての戦いの中、こうした技術要員が地位獲得のためのキーとなっていくのだろう。アプリケーションには軽快さと簡単さが求められ、公開までの手順は少なければ少ないほど良い。種々の機能追加はパワーユーザーに歓迎されるだろう。但し、コア部分については機能を絞込み、シンプルに使えるようにしておくことが重要だ。

Facebookは、ずっと写真などの投稿をスムーズかつシンプルに行えるように研究開発を進めてきた。Boz、Garcia、そしてSoleioは、ビデオの扱いも写真と同じようにシンプルにすることを目指して研究をすすめてきたのだろう。特許の成果がInstagramで結実すれば、投稿ビデオの世界に新たな地平が生まれることにもなるかもしれない。投稿される写真にも面白いものが増え、友人たちの撮影したビデオを閲覧する機会も増えることになるだろう。

原文へ

(翻訳:Maeda, H)

【関連記事】

関連記事

注目記事