読唇術で音声入力 スマホで口パクを自撮りし音声に変換「LipType」(ITMedia 2021/9/1)

https://www.itmedia.co.jp/news/articles/2109/01/news061.html

米カリフォルニア大学マーセド校の研究チームが開発した「LipType」は、音のない口パク映像を音声に変換する、深層学習を用いた読唇システムだ。スマートフォンのインカメラで口パクを自撮りして、話者の唇の動きを読み取る。

今回の手法では、唇の動きだけの音声なし映像を、意図した音声に変換する。既存の深層学習読唇モデル「LipNet」を最適化して速度と精度を向上させ、照明条件が悪い状況でも処理が行える修復モデルを開発し組み合わせた。

この修正モデルはLipType以外の音声認識モデルにも適応できるのが特徴。主要な音声認識モデルで試したところ、全てのモデルのエラー率を大幅に低減したという。

(サイトより引用)

5年ほど前から読唇術についての技術開発が見られるようになってきました。

注目しています!