エンベロープの使い方と役割

初稿：2020年7月

UTAUの「エンベロープ」といえば音量をあれこれできるやつと思われがちだが、ちょっと待ってほしい。

エンベロープの役割は主に２つあって、

・フェードイン、フェードアウトの管理

・音量の管理

で、音量うんぬんというのはフェードイン・フェードアウトの管理をしたあとに出てくる話なのだ。

（フェードとは、だんだん大きくなったり小さくなったりすること）

○前置き：音符のフェードイン、フェードアウトの必要性

基本に立ち返って考えると、UTAUとは「音素材を切り貼りして繋ぐやつ」である。

で、エンベロープとはその音素材を"切り取る"機能、だと私は思っている。

例えば単独音の「か」を原音設定して、使う範囲を決める。

そうすると、（範囲の頭は無音だからともかく）おしりはぶった切られた状態になる。

音を扱う上でこの「ぶった切られた状態」というのはとてもよくない。

ひとつは、ゼロクロスがうんぬんという音声データの処理上の話になるんだけど、ざっくり言うと

音の波は真ん中（黒い線）から始まらないといけなくて、いきなり上から始まったり終わったりする音は自然界にないのでおかしく聞こえる。

具体的に言うとﾌﾟﾂｯｯｯて音がする。

よくsetParamとかで原音設定してて範囲再生すると再生の始点終点でﾌﾟﾂｯて言うのはこれ

（再生時の現象なので原音は問題ない）

もうひとつは、そもそも人間の声（母音）ってそんな突然終わったりしなくね？という話。

つまりゆっくりめにフェードアウトしておかないと不自然なのだ。

※子音・母音など発音によってフェードすべき長さは変わる

ともかく、音符の前後はフェードする必要があって、ここでUTAUのエンベロープのデフォルトを見てみると

頭が5ms（ミリ秒）、後ろが35msのフェードになっている。

また、作曲やミックスをしたことのある人なら「コンプで1番大事なパラメータはアタックとリリース！」という話を聞いたことがあるかもしれない。

（音量の下がり始め・下がり終わりをフェードする、その長さの設定）

「音量が変化するのにかかる時間の調節が大事」という意味では似ている。

○エンベロープの基本

エンベロープには4つの点があって、

前の2つはアタック調整用（音符の頭からのフェード）、

後ろの2つはリリース調整用（後ろからのフェード）として使う。

だから前の2点は前からの位置、

後ろの2点は後ろからの位置を記録している。

（音符の長さが変わってもフェード長が変わらないように）

おまけで5つ目の点を作ることも可能。

もっと詳しい話はパラメータまとめへ。

○フェードインについて

（クロスフェードじゃない時）

単独音や、連続音の先頭（[- ○]系）は、音符頭は原音の発音がそのまま使われるので、フェードインを気にする必要は特に無い。

（一応前述のゼロクロス問題があるのでデフォルトでは最低限5msフェードインしているが5msはめっちゃ短い）

※原音の発音がアタックきつすぎて気に入らないときはフェードインを長めに設定したり、子音部分の音量を下げたりする

れんたんじゅつやCVVCなどは、

こんな感じでぶった切りなので、フェードインが必要。

もちろんデフォルトの5msでは全然足りない。

ただしカ行やタ行など、破裂音といわれる音は5msのままで良かったり、子音の種類・長さによってかけるべきフェードの長さが変わったりする。

そこで、最強プラグインに、先行発声とかオーバーラップとか計算してイイ感じにフェードインしてくれる機能をつけて頂いたので（bizz先生ありがとうございます！）、それを使うのがおすすめ。

拙作のおま☆かせ2020プラグインにも同様の機能

（「余計なアタックを削る」）を実装しています。

○フェードアウトについて

（クロスフェードじゃないとき）

フレーズ終わりでは、デフォルトの35msはけっこう短い。

曲のテンポや音源にもよるが70～100msぐらいでいいと思う。

とはいえ、いくらちょうどいい長さを設定しても所詮は機械でフェードアウトしたフェードアウトなので、

語尾音源を使うのがさいつよ。

（発音や音質が馴染めばだがな！）

だから語尾息みたいな特殊な語尾だけじゃなく普通の語尾音源も欲しいわけですよ！

○クロスフェードするとき

連続音やCVVCでは、音どうしをクロスフェードして繋ぐ。

つまり前の音がだんだん小さくなり、次の音がだんだん大きくなることで、いつのまにか次の素材に移り変わる、という作戦だ。

基本の形を保つ2,4pクロスフェード

点を多く使うための1,4pクロスフェード

2,3pクロスフェードでは、フェード長（＝オーバーラップの長さ）が短いときはフェードしない仕様なので、

連続音やCVVCのような「母音どうしを確実にクロスフェードしたい」ときは1,4pクロスフェードを使う。

○やっと音量の話

エンベロープ点にはそれぞれ音量パラメータもついてるので音量調整ができます（今更）

とはいえ、エンベロープはがんばっても5点しか使えないわけで、

しかも各点はフェード管理のお仕事に従事しているからあんまり自由には使えないわけで、

凝った調声するにはやっぱり足りないわけで、

もっと言うと音量調声するには波形が見えてることが必須なので、

波形が見えないUTAUエディタ上でやるのはちょっとキツいわけで・・・

（有料版だと波形出るけど、エンベロープ設定画面に出るわけじゃない）

要するに、DAWでやろうぜ！です。

Reaperはいいぞ！

もちろんUTAUのエディタ上でやる人もいるし、ちょっとした調整ならそれで事足りることもありますが、

連続音だと素材の音量差がすごいのでそのへんを直し始めるとDAWじゃないときついよ。

余談ですが、エンベロープの音量と音符のプロパティの音量は効き具合が違います。

また、音符のプロパティの音量はエンジンによって効き具合が倍ぐらい違います。注意してね。

チラシの裏～UTAU調声メモ～

UTAUの調声の話を中心に、初心者向けの使い方からうまく歌わせるコツ・ニッチなネタまで、独断と偏見で書いています。

エンベロープの使い方と役割