歌声合成の魅力って?〜機械っぽさ、人っぽさ、その他諸々〜 | チラシの裏 ~UTAU調声メモ~

チラシの裏 ~UTAU調声メモ~

UTAUの調声の話を中心に、初心者向けの使い方からうまく歌わせるコツ・ニッチなネタまで、独断と偏見で書いています。

初稿:2016年7月

 

 

どうも、Twitterに不穏な話題を流すことに定評のある(今でっちあげた)まいこです、こんにちは。
今回は歌声合成、音声合成の良さについて、「初心者さんに音声合成の魅力を伝えよう」「色んな意見があることを理解してみんなで仲良くしよう」の2点を目標に書いてみたいと思います。


ここでいう音声合成とは「人の声を使って合成or人の声を錬成」すること、歌声合成とは「音声合成の中の、とくに歌に関すること」としておきます。
つまりボカロUTAUその他諸々、全部ひっくるめてです。デフォ子含む、手動人力含む、無生物含まない(あれはあれ派)、でいきます。
また、「合成音声を聴く」「歌声合成する」「関連する創作をする・見る」の各魅力をごちゃまぜにして書いてます。


さて、音声合成の魅力について個人的に思いつく限りを列挙してみますが、
独断と偏見と想像で書いたのと、同意見内にも様々な解釈があろうことはご理解くださいな。


・機械が歌う(喋る)なんてすげー!
初期のボカロ界隈には多かったのかな?私はこれが第一印象でした。
私が初めて見た某動画は、まだVOCALOID2出たての頃だったので当然今より技術的にも劣っていて、しかもアマチュアDTMerさんの作品だったのでクオリティはお察しでしたが、それでも「機械が!歌ってる!SFか!!」ぐらいの衝撃はありましたね。
歌声合成自体にロマンを感じる派。


・キャラクターが好き
ボカロのヒットにはクリプトンの頑張りが大きく関わってきてるわけですが、特にミクさんにキャラ絵をつけたのは大きかったらしい。その後出たボカロの大半にもキャラ絵がついてる。
キャラ自体が好きな人(字書き・絵描き・3Dやグッズ制作等、創作界隈のみなさん)で声はおまけ!って人もいれば「キャラが実際に歌う」から好きという人もいるでしょうし、「歌う」こと自体がキャラ性の一部とも見なせますね。
このへんが二次創作文化とくっついて盛り上がってるわけです。たぶん。

また、UTAUの場合オリキャラに声をあてることでキャラ性が増したり、逆に自分の声のキャラを考えることで創作の幅が広がるという、一次創作勢もいます。いわゆる「うちの子可愛い」。UTAU勢でよその子可愛いする人ももちろんいます。
一次創作勢の場合、創作がメイン活動で音声合成はその一環というなら声のクオリティにさほどこだわらない人もいますし、そうでない人もいる様子。キャラがついてないUTAU音源は(全体に占める割合的には)かなり少ないかと思います。


・声が好き
これはもう個人の趣味が絡みまくりだと思いますが、重要なファクターではありますw
「声が好き」にも色々あって、
声質(高い低い、ノイジー・クリア、発声、その他数え切れないほどの諸々)
母音の発音(口の開き具合、その推移)
子音の発音(鼻濁音萌え、ここの子音の長さが~~等)
あとは雰囲気とか色々。
要素を噛み砕いていくと変態に近づけます。


・合成音声っぽさが好き
個人的にはあまり思わないのですが(後述)、これを支持する層はそれなりにいるだろうことは容易に想像できます。
要はキャラ性のひとつなんじゃないかな?「音声合成である」ことがキャラのアイデンティティになってるから。
技術的なことや作品のクオリティよりもキャラ性を重視する人にとっては、きっと大事な要素なんだと思います。


・人っぽくするのが楽しい
楽しいぞーーーー!!!!!!
リアル派にも色々ありまして、人間を忠実に再現する人、自分が思う「人っぽさ」を再現したい人、素材の味を活かす人、etc。

あと「自分が思う人っぽさを再現するための素材を集めちゃう」人。本当の意味でプロデューサーですねw
中の人と、中の人支援勢。あと忘れちゃいけないボカロ作ってる企業の人。とくにYAMAHA製はリアルさ重視っぽい感じする。
それからガチの科学者の皆様。もちろんお仕事ではあるんだろうけど、学会で音声合成関連の論文を発表してるとこをニコ生中継しちゃったりしてるわけです。すごく、仲良くなれそうな気がする


・自分より歌が上手い
どうすることもできない、ただの現実。
(個人の意見です。)


・表現手段
アーティスト志向。
機械っぽいとか人っぽいとか置いといて、自分の創造を的確に表現するための手段として合成音声を使う派。
音源によっては独特な雰囲気とか、サンプリングだからこそ出来ることとかあるよね。ブレイクビーツ的発想。
私なんか表現力とか創造力とか皆無なんで、こういう使い方できる人を見ると「私には理解出来ぬことをやっておられる、きっと神なんだろうな」って思いますね・・・


・人力派
これがどうやら私が思ってた以上に深く広いらしく、普段は検索避けとかして潜ってるけど掘り返すとわんさか動画が出てきたり。隠密の民。
前述したたくさんの要素を足して割らなかった感じの濃すぎる世界。キャラ愛も再現性へのこだわりも人一倍で職人魂がアツい。
時間がもぎ取られる気しかしないのでまだ深くは足を踏み入れてませんが、沼にはまったら体ごと持っていかれること間違いなしですね。絶対行かんぞー(フラグ)

これには手動でくっつける元祖人力VOCALOID派、UTAUを使ったUTAU式人力派、その他自作ツール派等がいますが(たぶん)、どれももともと確固たるキャラクター性と声が存在するタイプの二次創作なんで、だいたいキャラ愛か中の人愛で動いていると思われる(たぶん)。何を「良いもの」とするかも人によってまちまちで、非常に多次元的な評価基準がある模様。
(参考画像:人力ボカロの評価

版権もの素材を使う場合、権利関係がかなりグレーなことは要注意。


・そもそもこれは科学技術ではないかね派
実用的な面もプッシュしておきたい。
歌に限って言えば芸術としての一面が強いけど、喋りも含めると活用できる場がかなり広がります。
言ってしまえば駅の放送で「"この駅を出ますと""〇〇駅""〇〇駅""終点、〇〇駅""に、止まります"」とよく使う単語を収録、くっつけて流したりしてますよね。これも実際に技術が生かされている場だと言えるわけですよ!
あとは医療現場とか。以前某NHK番組の音声合成特集で、声が出ない人の役に立つかも、みたいな話してた記憶が。
もっと身近なところでは、音声案内や、実況・ナレーション動画で自分の代わりに喋ってもらうなど。



色々書きましたがたぶん他にも山ほどあるかと。

私の個人的な立場を言うと、「人っぽくするのが好き」「人間至上主義」です。人間様が最強に決まってるし、今の技術じゃ当分越せないと思ってるし、だからこそ人間に近づきたいというか、まあそこに人がいるから真似るのだ!という山登り的発想。

そんな考えだから、「機械っぽさが好き、人に近づける必要なんてない!」派に対しては「そんな簡単に人間にはなれないから安心したまえゴゴゴ」というのが持論です。この理論でいくと、もしや我々は共存できるのではないか(?)

あと、「人っぽさ」と「機械っぽくなさ」は似たようで違うと思うのです。後者は機械っぽくなさを完全に無くせばゴールだけど、前者は表現力を突き詰めればどこまででもいけるし終わりがない。両方ある場合も、両方ない場合もよくありますね。違和感少ないけど棒読みとか、人っぽいけど繋ぎ目目立ってるーとか。

キャラ愛とかはもともと薄い方で、マンガとか読んでてもキャラより物語重視派なんですが、さすがに自分で音源と中の人プロデュースしたら愛着湧きますねぇ。この世の音源のほとんどに中の人の愛があると思えばあら世界はこんなにも幸せ(こうして沼にはまっていく)