ディープラーニングで人間と同じトーン・スピード・抑揚を再現して自然な音声を出力する

Googleの人工知能開発部門の「DeepMind」が、状況や感情に応じてトーンや「間」などを使い分けて、まるで人間が話しているかのような自然な音声を出力する技術「 WaveNet」を開発しました。すでに英語と中国語で、既存のテキストトゥスピーチ(TTS)技術を圧倒する品質を実現しています。音声の入出力技術は、iOSのSiriやGoogleの音声入力検索などですでに実用化されており、身近な技術と言えます。しかし、人間の声と比べると完璧にはほど遠く、少なからず違和感を覚えることもあり、この分野の技術の進歩は、将来到来するであろうロボット技術との兼ね合いでも重要性を増しています。

そんな中、Googleの人工知能開発部門であるDeepMindが、「WaveNet」という音声入出力技術を開発しました。既存のTTS技術が、基本的に細切れにされた大量の音声データベースを用意した上でこれらの単語をつなぎ合わせる技術だったのに対して、WaveNetでは、サンプリングした人間の音声からディープラーニング技術によって音声波形を細かく細分化して解析することで、音声としては聞こえない息づかいや単語同士や文節同士をつなぎ合わせる「間」まで理解することを可能にしています。

ディープラーニング技術によって多数のサンプリング音声を解析することで、人間と同様の微妙なトーンや抑揚、しゃべるスピード、「間」などを再現できるWaveNetは、 Concatenative TTSや人間のサンプルなしで機械から音声を作り出す Parametric TTSなどの既存のTTS技術と比較するブラインドテストにおいて、英語・中国語ともにトップのスコアで、人間のスピーチに迫る高得点をたたき出しています。

なお、WaveNet(一番下)の出力する音声がどれくらいの精度なのかは以下のサンプル音声を比較することで確認できます。

大量の単語サンプルを用意する必要のあるTTSと違い、WaveNetは無から音声を作り出せます。男性・女性の声の変更はもちろん、文脈にあったトーンや感情を盛り込んで、自然な音声出力ができるとのこと。WaveNetは記事作成時点では非常に重い処理を必要としますが、将来的にはハードウェアの進化やインターネット帯域の増加によって、スマートフォンなどの端末でWaveNetを利用することが期待されています。