■外部リンク:ITmedia「のどの動きをMRIで解析し、口パクをテキストに変換 言語障がい者などのコンピュータ利用の一助に」(2022/1/18)
口の中をMRIスキャンして、その動きから音響情報を判別してテキストに変換する、という新技術。
これはアメリカのマーセッド大学の研究チームが開発したもの。
のどの声帯から唇 (または鼻) までつながっている部分を、「声道」と呼びます。
普段意識することはありませんが、私達が話をする時は、声道はその発する音に応じて様々な動きをしています。
じゃあ、声道の動きを見ることができれば、声を聞かなくても何を話しているのかが逆算できるんじゃないの? というわけですね。
で、声道の動きを見るために採用されたのが、MRI (Magnetic Resonance Imaging : 磁気共鳴画像法)。
健康診断や人間ドックなんかでも登場したりする、アレです。
これで口の中を見てみると、次の動画にもあるような映像をゲットできるんですね。
考え方としては素晴らしくごもっともなのですが、この技術はまだまだ開発途上にあるようでして。
「PER (音素誤り率) を平均40.6%に抑えながら、声道形成のシーケンスを文章全体に自動的にマッピングできることを実証した。」
既存モデルではPERが57~58%だったそうなので、それなり以上に改善されているのは事実ではありますけど、正直まだまだ物足りない数字でもありますよね。
ただ、今回の技術では深層学習を用いていますので、もしかしたら近い将来ビックリするような精度向上を実現してくれるかも?
この技術によって、
「日常的に使われているさまざまなコンピュータとの入力媒体として利用できる可能性や、これによって言語障がい者や音声障がい者、視覚障がい者がコンピュータとやりとりする際にも一助になる可能性を示唆した。」
とも書かれていて、今後の展開がとても気になるところです。