違和感と生々しさと統一感と感情の情報量と | チラシの裏 ~UTAU調声メモ~

チラシの裏 ~UTAU調声メモ~

UTAUの調声の話を中心に、初心者向けの使い方からうまく歌わせるコツ・ニッチなネタまで、独断と偏見で書いています。

初稿:2016年7月


書き始めの段階で何が言いたいのか自分でもよくわからない、ぼんやりとした考察。"感じ"とか"みたいな"とか"たぶん"とか"っぽさ"とか連発しすぎ。
合成音の「リアルさ」について色々言います。リアルさなんて追求する必要あんの?派についてはこれを読んでくれ→歌声合成の魅力って?〜機械っぽさ、人っぽさ、その他諸々〜


完全に持論で根拠とかないんだけど、UTAUの「リアルさ」って違和感がある/ないと、人間らしさ、生々しさのある/ないの2つの観点から評価できると思う。


違和感あるないってのは簡単で、通常の人間ではありえないような音が出てたらそれは違和感。具体的にはピッチがケロってるとか、繋げた2音の口の開き方が違う、短時間でaとiをクロスフェードするとか、口の奥で音を止めたのに次に口唇破裂音が鳴る([a k][ぱ]って繋ぐ)とか、エンジン特有のノイズ(引き伸ばし等)が乗ってるとか。機械で加工した感じ。

UTAUはエンジンによって色々だけど、ボカロは聴いてるとたいてい同じようなノイズが乗ってて、たぶんsとかkとか無声音系が苦手なんだろうな。ボカロはVOCALOIDエンジンを使うしかないからノイズの乗り方も誰が使っても似たような傾向が出るんだと思う。


対して生々しさ、という表現が合ってるのか自信がないけど、感情の量みたいなのがあると思う。これは人間が歌う時も同じで、棒読みで歌うことも感情を込めて歌うこともできる(※なお歌唱力ry)
これはどうやら「音に含まれる単位時間あたりの感情の量(濃さ?)」みたいなものらしいと勝手に解釈している。UTAUで感情の乗った音を引き延ばすと薄まって棒読みに近づく。ロングトーンからの語尾音([か~~~~][a R])コンボでよく違和感が出るのは、もちろん引き伸ばしノイズとかもあるんだろうけど、[詰まってる感情の量が伸びて薄まった音]→[引き伸ばしが起こらない、原音と同量の生々しさを含んだ音]を短時間でクロスフェードして繋ぐことによる落差もあると思う。たぶん。
あとこれ、感情には喜怒哀楽その他もろもろ種類がある。こもってる量だけでなく種類も多いと、色みたいにより濃くなるような気がする。たぶん。量は彩度で種類は色相?
・・・まぁ、このへんは主観が多分に含まれてるんだけども。


違和感は少ないけど人間らしいかっていうとそうでもなくて棒読み、というのが私のよく陥る状況なんだけど、CeVIO使った動画見てると逆に「人間らしくて生々しいんだけど繋ぎめみたいなのがわかる、口の開き方が途中から変わってる」とか思うことが多い。
おそらく「違和感」と「生々しさ」は独立した別の要素なのだろう。
感情の量は濃さとして捉えるとして、違和感は「どれぐらい」よりも「何回」で数えたほうがしっくりくる気がする。自然な流れが分断された回数みたいな。


違和感を減らすには連続音が有効で、連続音で違和感が出る部分はCVVC化が有効(VC部のピッチ劣化とか滑舌悪い音の回避とか)なので、連続音にCVVCが搭載されてれば最強なんだけどまぁそれはおいといて、あとは合成技術自体の進歩とか調声での工夫とか、歌に限って言うならMIXでのごまかしとか、録った後の扱いでどうにかなる部分も多い。
極論だけど違和感ある/ないの観点において収録時の工夫は「連続音を録る」までで十分だと思う。もちろん大明神とかすればもっと違和感減るのかもしれないけど収録コストとかあるからねー


一方、生々しさや感情をエディタでの調声で出すのはある程度限界があると思ってて、もちろん調声で大きく変わるものではあるんだけど、違和感を減らして理想的な表現で歌わせて感情を乗せて、じゃあそれ以上は?ってなるとやっぱり原音のポテンシャルにかかってくると思う。表現の可能性は音源のポテンシャルと調声技術力の掛け算なんじゃなかろうか。
その「音源のポテンシャル」の一要素として単位時間あたりの感情量があるのでは、と。

それと、不自然にならない範囲での「音の移り変わり」も人間らしさに関係していると思われる。音が移り変わることで情報量が増す。起伏とも言えるかも。
単独音よりCVVCのほうが生々しいのは1モーラ(音符1こぶん)の中に音素が1つ入ってるか2つ入ってるかの差で、例えばCVVCのVCが気に食わなくて単独音化することがよくあるんだけど、「あさ」を[あ][a s][さ]から[あ][さ]に変えると、aとsを繋げなきゃいけない違和感とは別に「[あ][a s]でまかなってた1音が[あ]だけになった」情報量の低下で棒読みにもなる。
表情音源を組み合わせてロングトーンを作る実験 by ゆ鳥さんとかもあったけど、これも1音の情報量を増やす試みですね。
範囲を1音から1フレーズに広げてみると、たとえば弱音源、通常音源、強音源の3種類で歌わせたら、通常音源だけで歌わせるよりも単純計算で3倍の人間らしさになる?なんだこの机上の空論感・・・

起伏はもちろん激しいほど感情的なんだけど、調声でやるのは「加工っぽさ」につながるリスクがある。そこを妥協してでも起伏を出す価値はあるけどね。
また、「感情的になればなるほどいいのか」という話はまた別の機会にて。


最近は「原音自体に効率良く感情を込める録り方」を模索してて、そういう意味では連呼式CVVCにとても期待してるんだけど、感情がこもると安定感が減る(口の開き具合のばらつきが増えるから?)
安定感とは流れの自然さとか、1フレーズの統一感みたいなもので、この「口の開き具合のばらつき」をコントロールできるような体系が用意されてれば逆に利用して「音の移り変わり」をコントロールできるのかもしれないけど、現状そうではないのでコントロールしきれず違和感の要因となる。
スペクトル系のエンジンだと加工でこのへんいじれたりもするのかな。
そこで安定感を補強するために通常音源を録って、混ぜて使えるようにするといいかも。ハマらなかった時の保険になるし、感情を込めたぶん滑舌への注意力が減ったりもするので感情音源単体だと不安。


それからもうひとつ、時間あたりの感情量の話からはずれるけど、歌として出力したときに「流れ」の中にも人間らしさがあると思う。1フレーズ聞かないとわからない、息がちゃんと出たり入ったりしてる感じとか、口が動いてる感じとか。
実際に歌っているところが想像できるような音声、かな。生々しさの一因だと思う。口の開き具合を変えたアペンド音源を録って併用するとかで再現できるかも。このへんは要研究。