機械の読唇術精度が人間を遙かに上回る93.4%を達成

~オックスフォード大やGoogleが共同開発。難聴の人向けサービスにも応用可能

http://pc.watch.impress.co.jp/docs/news/1028863.html

口の動きだけで会話の内容を読み取る読唇術の精度は、人間の場合、プロでも平均52%程度だが、英オックスフォード大やGoogle DeepMindの研究者らによる共同チームが開発した機械学習を利用した「LipNet」がそれを遙かに上回る93.4%を達成した。

LipNet」は、時空回旋、LSTM周期ネットワーク、コネクショニスト空間分類損失を組み合わせており、世界で初めて単語レベルではなく文章レベルの読唇を実現した。話者に依存せず行なえるという。難聴の人に向けたサービスへの応用も検討されている。

(サイトより引用)

--

その手があったか!とびっくりです。

読話には集中力が必要で、ベテランでもなかなか長時間の読話には耐えがたいところがあります。

日本語の場合、(学説により異なりますが)音素の数は119ある中、口形で区別できるのは、わずか19しかないと考えられています。この範囲で機械が読話可能になれば、すばらしいです。

本記事は、英語がベースですよね。日本語と環境は異なりますが、ぜひ日本でも検討してほしいところです。

 

それと「プロでも平均52%程度」って、読唇のプロがいるの?