映像だけから音を復元するビジュアルマイク技術が発表される(動画)

MITとマイクロソフト、Adobeの研究者チームが、映像から周囲の音を復元する「ビジュアルマイクロフォン」技術を発表しました。

MITとマイクロソフト、Adobeの研究者チームが、映像から周囲の音を復元する「ビジュアルマイクロフォン」技術を発表しました。

音が物体に当たって生じるごく僅かな揺らぎを解析することにより、 「防音ガラス越しの4.5m先にあるポテトチップの袋の映像から、室内の会話内容を復元」する実験に成功しています。実際の様子は続きの動画をどうぞ。

SIGGRAPH 2014にあわせて論文を発表したのは MIT CSAILの Abe Davis氏、マイクロソフトリサーチのMichael Rubinstein氏、Adobe Researchの Gautham Mysore氏ら。

音は空気の振動なので物を震わせ、動きを記録すれば音を記録できる、とはマイクや録音の原理そのものですが、肉眼では分からないほどのわずかな動きを映像から抽出して意味のある音を復元できることは驚きです。

実験で主に使われたのは、ポテトチップの袋やキャンディの包み紙、観葉植物の葉など、比較的音の影響を受けやすい物体。このほかグラスの水や箱ティッシュなどもビジュアルマイクに向いた物体とされています。

震えやすい薄膜のような物体とはいえ、音による変形はマイクロメートル(1/1000ミリ)単位。映像では数百から数千分の1ピクセル分しかありません。映像の最小単位である1ピクセルのさらに数千分の1では手の出しようがないように思えますが、研究者チームは画像全体のわずかな色の揺らぎから動きを解析する手法を用いて音を復元しています。

これが可能ならば過去に撮影した動画から拾えていない音を再現したり、サイレント映画から撮影現場の音を再現することも期待できそうですが、実験の大部分では音の高い周波数を拾うため、一秒に2000コマ以上を撮影できるハイスピードカメラを用いています。

しかし結局は特殊な機材が必要で現実的ではないのかといえばそうでもなく、論文ではさらに進んで、一般的な民生用カメラで撮影した動画から音を再現することも試みています。

高速度撮影対応を謳わないカメラでは一般に60fps程度までしか撮影できませんが、研究者チームが注目したのはCMOSセンサで発生するローリングシャッター現象。CMOSセンサはデジタル一眼レフから携帯カメラまで多くの機器で使われていますが、センサに入る光を一瞬で記録するのではなく、走査線に分けて順次記録して1フレームに収めることから、動きの速い被写体ではぐにゃりと歪んだような不自然な映像になる現象です。

(ローリングシャッターの参考動画)

一般的には像が歪んでしまう弱点であるローリングシャッターですが、逆に考えれば走査線(ブロック)ごとに多数の瞬間を記録しているとも表現でき、たとえば1/60秒でしかない1フレームをさらに多数に分割してサンプリングレートを向上させることが可能です。この手法により、高速度カメラほどではないにしろ、周囲の音をある程度再現することに成功しています。

この技術の使い道として挙げられるのは、まずは分かりやすい盗聴。隠しマイクや読唇の必要もなく室内の会話を再現するほか、話の内容までは再現できない場合でもその場の人数、あるいは声の高さや話し方のクセ(シグネチャ)から性別や言語、あるいは個人を識別するなどが考えられます。

なお、締め切った室内の会話を遠くから盗聴されるなんて怖い!という話であれば、窓などにレーザー光を発射して反射を拾う原理のレーザー盗聴器なるものが古くから実用化されています (数百円で自作できるらしいので実際に作ってみた記事)

今回の Visual Microphone 技術のレーザーマイクに対するアドバンテージは、アクティブにレーザー光を飛ばす必要がないため比較的気付かれにくいこと、光を反射しやすい物体がなくても使えることなど。

現時点ではある程度の高速カメラとよほど高性能なズームレンズで狙われないかぎり、またそれなりの声で喋らないかぎりこの手法での盗聴はできませんが、聞かれて困る話をしがちな人にポテトチップやお菓子の袋を積極的に片付けさせる効果はあるかもしれません。

【関連記事】

(2014年8月6日Engadget日本版より転載)

注目記事