グーグルの研究者がビデオ通話で手話を認識して画面を切り替える技術を披露(10/3)
Googleはリアルタイムの手話検出エンジンを研究中。
誰かがいつ手話をしているのか、いつ手話が終わったかを検知できる。人間にはもちろん些細なことだが、画像と音声を映し出すことが目的のビデオ通話システムにとっては難しい。
ECCV(European Conference on Computer Vision)で発表されたグーグルの研究者の新しい論文では、効率的で非常に少ないレイテンシーで手話を検出する方法を示している。手話検出が機能したとしても、映像が遅延や劣化してしまうと実用的ではない。グーグルの研究者の目標は、軽量かつ信頼性の高いものであることを確認することだった。
手話検出システムはまず、PoseNet(ポーズネット)と呼ばれるモデルを使ってビデオを再生し、フレームごとに体と手足の位置を推定する。この基本的に棒形に単純化された視覚情報は、ドイツ手話を使用する人々のビデオからのポーズデータに基づいて訓練されたモデルで、ライブ映像で手話のように見える動きと比較する。
この単純なプロセスでは、相手がサインをしているかどうかを予測する精度はすでに80%で、さらに最適化を加えると91.5%の精度になる。
「人がサインしている」という信号は、20kHzのトーンを生成して検出できるようにする。
(サイトより引用)
—
これまでなかった新技術のようです。
手話検出から翻訳が自動的に行われるようにするために、まずは一歩、なのでしょうね。