すおはようございます
入院4日目、昨日のうちに胃管が抜けて行動も比較的自由になっております
そこで、昼から週に一回九州がんセンターの患者サロン内で開催されている筑声会の発声訓練に参加してきました
そこで昨日は、新たな代理音声を研究されている九州工業大学の齊藤 剛史教授が取り組んでおられる読唇技術のデモンストレーションを拝見することが出来ました
簡単に仕組みを説明すると、口の形によって言語を認識し音声化するものです
ろう者の方が、手話とともに使う口話に似ています
ただ、音声を文字化する技術はかなり進んでいますが、読唇から音声に変えるのはかなり難しいようです。
例えば、「たまご」「たばこ」「なまこ」は、同じ口の動きをします
これを正確に音声化して行くには、まだまだ多くのサンプルを取ったりAIによる文脈からの予想変換などハードルがあるようです
また、今回デモで拝見したものは、一通り言葉を口で表した後に音声変換されるので、タイムラグがあり会話の流れという点では使いづらい印象でした
しかし、今後はその点も改良していくとのことで、これが実現可能になれば特別に訓練も積まずに会話が可能となり、またクリアな音声が出るので新たな代理音声としてかなり有望です
ただ、会話の流れに即するようなレスポンスの早さがネックとなりますが
でも、私は期待してこの研究の行方を見守って行きたいと思います