たった3秒であの娘の声を再現！？VALL-E-X紹介

どうも、ねへほもんです。

最近のブログや創作活動の中心は「AIイラスト」なのですが、今回は同じAIでも違うものを作成しました。

それは、

音声

です。

1.ボイスクローニングとは？

(参考)音声クローニング（音声クローン技術）とは？｜田村一起/(株)voiceware CEO (note.com)

機械音声といえば、以前からも「初音ミク」「ゆっくり」「ずんだもん」のようなボーカロイド、ボイスロイドは存在していました。ボイスロイドを使えば、自分の声で収録せずとも、解説動画を作成することができます。

が、今回ご紹介するのは更に一歩進んだ技術です。

・ボイスロイド→「おはよう」のような指定した文章を、「ボイスロイドの声で」読み上げる

・ボイスクローニング→「おはよう」のような指定した文章を、「学習元の人・キャラの声で」読み上げる

要は、読ませる文章を指定するだけでなく、「誰の声で」読み上げるかすらも操作できるようになったということです。

音声合成の技術が進歩するにつれ、世間でも徐々に利用されるようになってきました。

・AIアナウンサー

・故人の声を再現(例：紅白歌合戦の美空ひばり氏)

・本人に対するなりすまし

優れた技術であっても、使う人間によっては悪い方に利用されることもあります。

音声合成も例に漏れずで、最後のなりすましは今後犯罪で使用される機会が増えるかもしれません。

まず、動画と音声を加工して有名人になりすますディープフェイクというものがあります。

本人が実際には言わない虚偽の発言をさせて情報を錯綜させることで、戦争の相手国を混乱させるとか、世論に影響を及ぼし選挙結果を変えられる懸念があります。

コナンの映画にはリニアとかIoTテロとか、時々時事的なテクノロジーが登場しますが、ディープフェイクも今年登場していて時代の流れを感じました。

また、一般人でもなりすまされる事例としては詐欺へ利用されることもあります。

昔はテキトーな若者の声で「オレだよオレ」と電話を掛けては、「プリキュア全員言える？」と聞き返して撃退されていたものですが、今では本人の声を再現できるため、より騙されやすくなっています。

まだ技術進歩の途上の段階で、日本語の再現度はイマイチのようですが、既に海外では詐欺に利用された事例もあるそうです。いずれ日本にも上陸するでしょうし、なりすます技術が存在することを把握すると共に、親御さんにも伝えておくことをお勧めします。

まずは一般論からお話ししましたが、かつての音声合成には膨大な学習データが必要とされ、一般人が気軽に利用できる技術ではありませんでした。

それが、イラスト生成のように一般人でも手軽に利用できるようになったため、僕も試しに使ってみたという事例を次でご紹介します。

2.VALL-E-Xを使ってみた

今年頭にマイクロソフト社から論文が公表され、8月下旬に南陽大学の学生さんがオープンソース化されており、「最短3秒の音声データからその人の声を再現できる」というものです。

参考として記事と動画を1つずつ置いておきます。

革新的！音声モデル「VALL-E-X」WebUIをWindowsで動かす方法解説実演付き | 経済的生活日誌 (economylife.net)

さすがに3秒はスゴイです。

昔は数十分のデータが必要だったそうなので、技術の進歩を感じさせられます。

という訳で、僕も使ってみました。

導入方法は記事の通りですが、「git clone 〇〇」を1回、「pip install 〇〇」を2回すれば終わりです。

僕はこの方法で1週間掛かりました

なんだろう、この、「投資なんて簡単。安い時に買い、高い時に売るだけ。俺はこの方法で500万を100万にした」というコピペ文みたいな流れは。

僕の真似をして実際に導入しようというガチ勢が居るとは思えませんが、一応詰まった所を説明しておきます。

記事では予め「Microsoft C++ Build Tools」をインストールしようと書かれていますが、ここに大きな罠が潜んでいました。あろうことか「Microsoft C++ Build Tools」の最新版を使ってはダメで、pyopenjtalkというモジュールがインストールできません。

対処法が分からずパニクって、最終的にgithubのQAを参照して何とか解決しました。

最新版ではなく2017年度版を使いましょうって分かるかい。

cython compile issue · Issue #70 · r9y9/pyopenjtalki met cython compile issue in pyopenjtalk i want to know which version of cython can compile pyopenjtalk thanks

github.com

前置きはさておき実戦編へ。

僕が誰の声を再現したいか・・・まぁバレバレでしょうが。

AIで音声作成してみた①
学習データ pic.twitter.com/9hjRVooBvA
— ねへほもん (@nehehomon) October 15, 2023

AIで音声作成してみた②
出力結果 pic.twitter.com/TeTnq32KIb
— ねへほもん (@nehehomon) October 15, 2023

はい、キュアプリズムこと虹ヶ丘ましろちゃん(CV 加隈亜衣さん）定期です。

朝起きるのは大変ですが、ましろちゃんに起こしてもらえれば目が覚めるはず。

で、再現結果ですが、

正直微妙

という印象です。

聞いていただければお分かりでしょうが、なんか機械っぽさは残ります。

あと、↑で投稿したものは何回かガチャった中で一番良かったものです。

AIイラストでは数百枚生成してから良いものを選別しますが、音声も同様で、酷いものでは本人の跡形も無い謎の金切り声になります。

しかも、学習データも最短3秒とは言われつつも、頑張って上限の15秒ギリギリのデータを用意したので、これがクオリティの限界です。

ましろちゃんに起こしてもらうのはもう少し先になりそうですな。

後、AIイラストほどは流行らないだろうとも思いました。

AIイラストはパクリだとか創作者の敵だとか色々言われますが、それでも創作の余地は存在します。

キャラ・背景・効果といった構図を考え、古くはプロンプトを操作し、今ではモデル・VAE・LoRA・アップスケーラー・Controlnet・その他多数の拡張機能等、色々な要素を工夫する必要があります。

「自分で描く」という圧倒的に手間と経験値を要する工程をすっ飛ばしている点では絵師の皆様に頭が上がりませんが、狙った構図で綺麗なイラストを出力するには固有の技術があるという訳です。

一方のボイスクローニングは、「ただ似せるだけで創作性は無い」ものです。

特定の誰かに似ているかでしか評価されず、独創性やオリジナリティなんてものは存在しません。

イラスト生成で有名な絵師・漫画家の先生の画風をパクってお金を稼ごうものなら世間から大炎上させられることでしょう。ボイスクローニングはただ似せるだけの技術なので、そこから商売へは繋げづらいはずです。

以上VALL-E-Xの紹介でした。

若干期待外れ感はありましたが、気軽に音声合成を楽しめて良かったです。

NovelAIからStable diffusion Web UIへ進化したように、時間が経てばより高品質なサービスが登場するでしょうから、続報が出たらご紹介します。

では(^^)/