初稿:2016年頃
UTAUでの合成時避けて通れないのが母音同士のクロスフェード。
ここでは母音クロスフェード時の違和感に的を絞って思いつく限りの解決法を列挙してみる。
(子音が絡む部分の違和感はたいてい原音か原音設定なので、単独音やCVVCなら原音設定を見直す、録りなおす、連続音なら他の音階を使ったり擬似CVVC化して他の音素に差し替えたりとか)
・クロスフェード部分の音量が小さくなる現象
音量周りに問題があると見せかけて位相合わせの問題。
wavtool4vcvかpresampを使えば解決。
wavtool4vcvでも直らない箇所は、後ろのノートを選択してクロスフェード最適化を1回掛ければたいてい直る。
波形の上下に差がある(素材が上下どちらかに偏ってる)場合は位相を合わせてもどうにもならない。直し方は知らん!
参考:クロスフェード最適化について(当ブログ内記事)
「位相?最適化?何?」→これを見てくれ
【UTAU】クロスフェード最適化のススメ
・声質の違いを減らす
2音間の声質の違いで違和感が出る現象は、長いノートの時に顕著で、短いノートではあまり目立たないことが多い気がする。
ロングトーンと語尾音源を繋いだ時なんかは声質差が目立ちやすい。
声質、音質にはいろんな要素があって、
・声の高い⇔低い(男声、女声的)→gフラグ
・息成分の多い⇔少ない→BRE、bフラグ(かけると音質が落ちる気がするので録って用意するほうがいいかも)
・明るい⇔暗い→gで解決したりしなかったり
・口の開き方(標準的なあいうえおよりもa寄り、u寄りなど)
・はっきりしている⇔こもっている
・原音の収録音階が違う(多音階音源)→デフォルトのprefix.mapに頼らず違和感のない箇所で使用音階を切り替える
・そもそも収録環境が違う(声の遠さとか)
などなど、どれを補正したいかによって方法が変わってくる。
まずは他の音階用の音や、連続音の他の音素から持ってきたりして「別の素材に差し替える」のを試す。
素材そのままでフラグ変えたほうがいい時もあるけど、フラグはあくまで加工なのでやりすぎると音質が劣化するので注意。
原音を他のソフトで加工しちゃうことも。(元の原音のバックアップは取ること!)
・音量差がある場合
意外と見逃しがちなのがクロスフェード前後の音量。
イ段、エ段、語尾音源などでフラグとか色々いじったのに違和感が消えない時はこれだったりすることも。
UTAUで出力される音量は原音の音量とは違う(左~右ブランク間のピークを-6dBに合わせようとするエンジンの機能が働く)ので、実際に出力した波形を見ながら音量を揃えるのが手っ取り早い。
Pフラグはあまりあてにならない(原音が配布時にノーマライズされてるときとか厄介)
ちなみに調声中に波形を確認できるutawaviewというソフトがある。耳ロボ先生は神。
イ、エ段は口の開き方的にア段とかよりも音量が小さいはず(発声によるけど)なので、ノーマライズ機能のせいで無駄に大きく再生されて違和感の原因になったりする。
語尾については、発音はじめは音量にアタックがあることが多いのでそこを基準にノーマライズされるのに対して、語尾は音量が一定→フェードアウトするのでノーマライズされすぎて大きくなる、という原理。
CVVCで元の発音も原音設定も合ってるのになーんか変というときは、VCの音量がノーマライズされすぎてることがある。[い][i k][か]の[i k]だけがやたら音でかいとか。presampはこういう時の音量操作が苦手なのでとても困る。Pフラグか、いっそVCを抜いてしまうことも。
・音程差による場合
クロスフェードする2音の音程が微妙に違うとクロスフェードがうまくいかない。
(原音の音程が違っても、出力するときに同じ音程に揃えればクロスフェードできる。これが揃ってないとクロス部分に違和感が出る)
連続音はmod0必須と言われるのはこれで、原音の音程ゆらぎを反映するmod機能をオフにすることで母音クロスフェードを円滑にする。
たまに原音の音程の解析(周波数表の作成)に誤差が出ると完璧にクロスフェードできない時があるっぽい?