UTAU音源の収録・音質調整やらノイズ除去やらの話 | チラシの裏 ~UTAU調声メモ~

チラシの裏 ~UTAU調声メモ~

UTAUの調声の話を中心に、初心者向けの使い方からうまく歌わせるコツ・ニッチなネタまで、独断と偏見で書いています。

初稿:2023年2月

 

 

今回は音源制作における音声のトリートメントについて。

 

最初に断っておくと筆者は中の人でもなければ宅録の経験もそんなに多くないです。

ただ、本業で声を録ったりするエンジニアをしています。まだまだペーペーですが。

 

UTAUはエンジンを通すときにノイズが増幅されやすいので、原音の音質は大事!

しかし高音質を目指すには色々とお金がかかるので、ここで書くことはあくまで「理想」と思っていただければ。

 

 

なるべくノイズ除去はしたくない 

 

ノイズ除去ソフトを使用すると多かれ少なかれ音質が劣化するので、録る時点でノイズが入らないようにするのが基本です。

特に、環境音やハムノイズといった常に鳴り続けているタイプのノイズは除去の影響が大きいため、録る段階で極限まで減らします。

 

じつは録ったあとのEQ・コンプなどの調整も同じで、極論EQ・コンプしなくてすむぐらい上手く録れるのが理想的です。まあ実際無理ですが。

 

とにかく、「あとでどうにかすればいい部分」「録るときにがんばるべき部分」があるので把握しましょう!

 

 

録りの段階で気をつけること 

 

マイク選びの基本

前述の事情で私は廉価なマイクのオススメとかは全然わからないのですが、

ざっくりいうと「PCマイク」「ダイナミックマイク」「コンデンサーマイク」の3種類があります。

具体的な製品についてはUTAU音源制作wikiが詳しいです。

 

 

・PCマイク

通話用、Skypeマイク(死語)。

音はあまり良くないものの、後2つが割と高価なので、予算がない場合はこれ一択です。まあ音質悪くてもUTAわせること自体はできるし…

最近はリモートワークなどの影響で製品が増えているため選びがいはあるかも?

 

・ダイナミックマイク、コンデンサーマイク

高音質を目指すならこのどちらかになります。

これらはPCと繋げるために別途「オーディオIF」という機材が必要で、手持ちだと手からノイズが入るためスタンドも必要になり、予算がかさみがち。

詳細は後述。

 

・スマホ

最近話題のスマホ収録ですが、必要な低域がしっかり録れない印象があります。スマホ本体のマイクよりイヤホンマイクなどのほうがまだマシかも?

とはいえ全く使えないわけではないので、初めての収録なら視野には入ります。

 

 

ちなみにマイクはピンキリなのでガチ高いものはうん百万とかするのですが、世の中のナレーションの90%はU87Aiというマイクで録られています。20数万円…だったはずだけど気付いたら40万近くになってる!?!?

歌モノになるともうちょっとバリエーションがあります。

 

 

距離と、近接効果と、マイクごとの特性

マイクを近づけて声を録ると近接効果といって、250Hzくらいから下(低音)が増幅する現象が起きます。

つまりモコモコするので個人的にはあまり近づけたくない派です。

マイクとの距離は声の大きさによってかなり変わるものの、10~20cmぐらい離すことが多いです。

 

ただ、それは発声がしっかりしている人の場合で、宅録だと特に声が小さくなりがちなのでもっと近づけて録るのもひとつの選択肢です。

また部屋のノイズが気になる場合も、近づけば相対的にノイズより声の方が大きく(SN比が良く)なります。

 

音楽業界は畑が違うのでアレなんですが、たぶんけっこう近づけて録ったあとだいぶ低域を削ってると思います。そういう”味付け”がされているわけですね。

私が居る界隈ではそこまで低域切らないので商業音楽聴いてるとたまにギャップでビビります

 

THE FIRST TAKEとかで歌手がマイクに口をめちゃめちゃ近づけて歌っているのは低音が強調されて迫力が出るとかそういう理由なんだと思いますが、どうせあとでエンジニアが切るのでまあ無意味です。

…というのはスタジオ収録の話で、ライブなど周りにスピーカーがある場合はハウリングを防ぐためあまり離せないという事情もあります。

 

 

で、先ほどの「ダイナミックマイクかコンデンサーマイクがおすすめ」の話に戻るのですが、

スタジオ収録では基本的にコンデンサーマイクになります。繊細な音が録れます。あまり近づけたくないよー、録ったあとEQでロー削るよー、の話もコンデンサー前提です。

一方、ライブなど周りがうるさい環境ではダイナミックマイクを立てます。これは単純にこちらの方が丈夫とかそういう話もあるのですが、SM58などは近づけて録ってもいいように本体側で低音を減らす設計になっています。

 

なので単に「高音質」を目指すなら普通はコンデンサー、しかし宅録では環境によっては「あえてダイナミックマイクを使って近づけて録る」ほうが良い場合もあります。

 

 

ハムノイズについて

PC直差しのマイクではPCの電源が音に影響してブーーというハムノイズが乗ったりします。

電源由来なので東日本は50Hz、西日本は60Hzってやつですね。

これは録る段階で気にしましょう。

 

ノートPCの場合はコンセントを抜いてバッテリー駆動にすると改善したりします。十数年前の実体験の話なので今のPCがどうだかわからないけど…

 

オーディオIFはマイクを繋ぐための専用機材なので、そういったノイズはほとんど乗りません。

 

 

反響について

なるべくない方がいいです。

歌ってみたの録音ならオケと混ぜちゃえば気にならないのですが、UTAUだと音を切り刻んで繋げることになるためヤバいです。

特にCVVCはより細かく刻むことになる・子音も伸縮範囲になりうるなどの事情で影響が出がち。

 

収録部屋に布など音を吸収する物をたくさん置く、やわらかいカーテンで覆うなどしている人が多いようです。

マイクの周りを吸音材で覆う専用の機材などもあります。高い。

 

反響ゼロは物理的に不可能なので、できる範囲で大丈夫です。

 

 

環境音について

ないに越したことはないが、無くせるなら苦労しねえよ!ってやつ。

家電由来の音が多いです。電源を切れるものは切り、無理ならなるべく遠ざけましょう。

冷暖房は音が出やすいですが、収録が長丁場になりがちなので体調に気をつけて。

 

 

ポップガードについて

吹かれ(ポップノイズ)を軽減するやつ。値段はピンキリです。

 

これは意見が分かれがちで、ポップガードを使うと多少音が変わってしまうので無い方がいい派、マイキング(位置や角度の調整)で吹かれを防ぐ技量があるから要らない派、吹かれるぐらいなら使った方がいい派などが居ます。

 

ただ、UTAU音源収録では大量の原音を扱うことになるため、あとからひとつひとつ吹かれを確認してノイズ除去するのはめっちゃ大変です。

手間を減らすためにはあったほうが楽

 

 

音割れについて

絶対に許さん

 

エンジニアが収録するうえで一番嫌うのは音割れです。

「まあ最悪割れてなきゃあとはどうにかなるから~」とは職場の先輩談

 

とはいえ最近のノイズ除去ソフトならちょっとした音割れは治せます。がっつりは無理。

音割れ絶対許さんとは、(ノイズ除去ソフトがなくてもがんばればどうにかできるリップノイズ・ポップノイズなどに比べて)音割れは手動でのノイズ取りができないという事情も含まれています。

 

でも音割れは入力レベル(音量)を調整すれば防げるのでやっぱり許さん。

割れたら録りなおしてください。

 

 

リップノイズについて

完全に防ぐのは無理だと思います。

 

リップクリームを塗るなどで改善できると聞きますが、唇だけでなく口の中でもリップノイズは鳴ります。

あとはこまめに水分を取るとか。

 

幸いリップノイズはあとで取りやすい部類に入るので、リップノイズを気にしすぎて収録に集中できないぐらいなら 後で取ると割り切った方がいいかも。

 

 

収録後の処理 

 

実際のところ、配布されているUTAU音源でEQ・コンプなどの処理がちゃんとされているものは少ないようです。

音の加工は一度やってしまうと戻せないので、ユーザーの中には下手に加工してほしくない派も多いです。

とはいえ掛けたほうが扱いやすいので、自信がないときは加工後verと無加工verを両方用意すると安心かも?

 

というわけで、

wavを加工するときは加工前のバックアップをとっておいてください

合言葉は「よくわからないならやりすぎない」「削った音は取り戻せない」

 

 

ちなみに大量のwavに同じ処理をする場合は「バッチ処理」ができるソフトを使うか、

wavDivider(わぶでば)というツールを使って全wavを1本化→音声処理→元の長さに分割できます。

基本的にはバッチ処理のほうが便利ですが、わぶでばもOREMO・setParamなどを擁する我らが耳ロボPのソフトだけあって、UTAU音源の加工にはなにかと重宝します。

 

 

全体の音量について

収録時の音量が小さすぎた場合は、全体の音量を底上げ(ノーマライズ)します。

(収録時にはなるべく大きい音で録るのが理想だが、音割れしない程度のゲインで構えていると結果的に小さくなってしまうことが多い)

 

このとき、全wavの音量を同じだけ上げることが大事です。

上げ幅がバラバラだと、小さく鳴るべき音が大音量で鳴って不自然な出音になります。

また、UTAUエンジン側にもノーマライズ機能(Pフラグ)がついていてこれが悪さをしがちなんですが、全体の音量が大きめで揃っていればPフラグをオフまたは控えめにできます

 

よく単独音のイ段・エ段でノイズが乗りやすいとかいう話がありますが、大きい音はそのままで小さい音だけがエンジンによって増幅されてるからイ段だけノイズがでかい・そもそも音量がチグハグで不自然に聞こえているのが原因です。

あと連続音でも「a い」と「i い」を繋ぐと、「a い」は”a”部分がでかいので増幅されない・「i い」だけが増幅されて音量がチグハグになります

 


・本来「ノーマライズ」とは全体のピーク(一番音が大きい部分の音量)を測って、そこが音割れしないように計算して全体の音量を上げること。ただ音量を上げるだけなので音質は変わらない。

・1本ずつバッチ処理でノーマライズすると各wavのピークに合わせてそれぞれ増幅されてしまうため、前述したwavDividerで一本化するのがおすすめ。

・大きい音と小さい音の差が激しい場合は後述するコンプをかけてならすか、大きい音がめっちゃ短い(kの子音頭の一瞬だけでかいとか)場合はリミッターを使う。

・このあとEQなど処理をするつもりなら最大音量まで上げないこと。

EQ時にさらに増幅されて音が割れる危険性があります。

・ノーマライズするタイミングはいつでもいいが、小さすぎると作業しづらいのでそれなりの音量まで上げる→EQコンプなどで整える→まだ上げたければもう一度ノーマライズ、など。

・別に最大音量まで上げなければいけないわけではないのと、UTAUエンジンのPフラグがピークを-6dBになるように揃える(音符ごと・原音設定の左~右ブランク間)ため、なんとなく各モーラの大きい瞬間が平均-6dBぐらいになるように揃えるといいかも?

 

 

 

EQについて

音楽制作・ミックスするうえでのEQは演出的な意味でかけますが、それはUTAUを通したあとにやるべきなので、原音の加工は「補正」を心がけてください。

いらない音を減らしてなるべくフラットにします。

 

もとの声質はもちろん、マイクの特性、口との距離、部屋の形などさまざまな要因によってかけるべきEQの設定は変わります。

とにかくやりすぎないことが大事です。

 

 

まずローカット(ハイパス)をかけます。声の帯域よりも下に乗っているノイズが切れます。

あくまで声にかからない程度に、目安100Hz以下とかでしょうか。「声の帯域」は録る音程や声質によって変わるので、何Hzまで切るかは場合によります。

この作業にはモニタースピーカーなどの良い試聴環境が必要になるので、自信がなければスペクトラムアナライザーなどで視覚的に確認してください。

 

↑スペクトル見せるついでにEQモジュールも出したけど別にRXのEQじゃなくてもいい

 

このときQ(角度)に気をつけてください。100Hzと入力しても実際は角度がつくため、それより上の帯域も削れています。

なだらかすぎると必要な音まで削ってしまい、角度が急すぎるといかにもローカットしたな~という不自然な音になりますが用途がUTAU音源ならちょっと急なぐらいでもいいかも?

 

 

次に、低域のモコモコ感を低減します。200~300Hzあたり。

別にモコモコしていなければ切らなくていいです。安いマイクでは低域がしっかり拾えていなかったりするので減らすと逆効果なこともあります。

 

どれぐらい切るかはもとの音質によりますが、まあそれなりに録れてれば多くても1~2dBで済むんじゃないでしょうか。

 

部屋鳴りによって特定の周波数だけキンキンするとかモコモコするとかがあれば局所的に切りますが、わからなければ何もしなくて大丈夫です。

 

 

最後に、お好みで3k~5kHzあたりをちょっとブーストしたりしなかったり。いわゆる美味しい帯域というやつで、母音の倍音にあたります。

原音の時点であまり味付けしすぎると調声後にミックスで詰むので、やるとしても1~2dBに留めて。

5kを超えてくるとsやkの子音があるエリアに突入しますが、上げるとうるさいので何もしません。それなりにちゃんとしたマイクならなおさら何もしなくていいと思います。

 

 

ちなみに、EQは"録れている"音を増やしたり減らしたりできますが、マイクの音質や角度が悪いなどで必要な帯域がちゃんと録れてなかったら無力です。0には何掛けても0なので…

スマホのマイクなども超高音域が拾えなかったりするので、それはいくらブーストしても出てきません。

結局収録がめちゃめちゃ大事ということです。

 

 

コンプについて

分かる者だけがコンプをかけなさいと聖書にも書いてあr

 

UTAUは素材を切り貼りするタイプのソフトなので素材の音量が揃っていることは大事です。

私は調声時に素材の音量差を手作業でめちゃめちゃ揃えるのですが、軽くコンプがかかっているとこの手間が軽減できます。

 

ただしかけすぎるとモロに「コンプかかってる感」が出ます。無理やり抑圧されたような感じが出て、オケに埋もれるし映えない音になります。

しかもアタックやリリースを適切に設定できないと、潰したい大きい音にはかかってくれないくせに直後の小さい音が潰れたりして逆効果です。

よくわからないなら何もしない方が無難です。

 

解説したいのですがあまりにもケースバイケースすぎて…

とりあえず囁き系など、音量差が少ない場合はかけなくてもいいです。かけてもリダクション量は1~3dBぐらいの控えめがいいでしょう。

叫び系など、母音の頭が一瞬強く出て音量差が大きいような音源で強めにかけたい場合でも、リダクション量は大きいところで6dBとか?たまに瞬間的に10dBぐらいまでいくかもしれません。

 

なんにせよ調声後にもどうせかけるので、この段階ではやりすぎないぐらいがいいと思います。

 

どうしてもかけたいけど聴感に自信がないときは、かける前と後の波形を見比べたりするのも手です。

 

 

ノイズ除去について 

 

ノイズにもいろいろ種類があり、取りやすいもの・取りにくいものがあります。

またソフトもピンキリなので取れる・取れないは一概にはいえません。

とりあえず今回はノイズ除去の定番であるiZotope「RX」シリーズの話をします。

(操作については日本語のマニュアルがしっかりしているため割愛し、機能のみ紹介します)

 

EQでローカットをかける場合は、ローカット後にノイズ除去の順番がいいと思います。

 

 

オススメの作業環境

RXにはグレードがいくつかありますが、そもそもはプロ用のガチ機材です。

Advanced以上の高いグレードは、例えば外ロケでめちゃめちゃ風が吹いている中芸能人の声がギリギリ聞こえるか聞こえないかみたいなクソ素材を持ち込まれたエンジニアがキレ散らかしながらノイズ除去するときに使うやつです。蝉は絶滅すべし。

つまりUTAU音源には無用の長物です。

RXの高いやつ買うぐらいだったらそのぶんマイクにお金かけたほうがいいです。

 

実用としては、クオリティが高くバッチ処理も使えるRX Standardがあったほうが便利ですがまあまあ高い。

そして収録時に対処しづらいリップノイズを取れるDe-click機能は一番安いRX Elementsにも入っています。

なのでなるべくマイクや環境にお金をかけて、全体にかかるノイズは減らしたうえで、RX Elementsなどで局所的なリップノイズを取るというのが理想です。

 

ただ、この手の音響ソフトあるあるですがたまに心配になるくらい安いセールを行ってたりします。だいたいブラックフライデーと新バージョンお披露目セールが狙い目です。

また、学割があるため学生・教員なら安く買えます。

そこにクロスグレード割(iZotopeの他商品を持ってる人向け)などを組み合わせれば、Standard版でも手が出せる金額になります。

 

 

鳴り続けているタイプのノイズについて

RX Standardなら「Spectral De-noise」という、喋っていない部分からノイズを学習して同じパターンのノイズを消すやつが強いです。

また、バッチ処理が使えるため一箇所学習すれば全wavにまとめて同じ処理をかけられます。

 

RX Elementsに入っている「Voice De-noise」はSpectral De-noiseと仕組みも使い方もほぼ同じです。品質は落ちるけど負荷が軽い簡易版だそうな。

Optimiseは声の長さに関係するらしいのでMusicのほうがいいかもしれません。

 

先にも書きましたがこの手の全体を加工するやつは必要な声まで劣化させがちです。

収録環境がしっかりしていれば軽めにかけるだけで綺麗に仕上がりますが、ノイズが多い・音質が悪いときはついついかけすぎて声がしゅわしゅわのケロケロになるので、なるべく控えめに。

 

 

Audacityにも同じように環境ノイズを学習して消す「ノイズリダクション」があります。

クオリティは劣るものの無料で使えるのは強いですね。

他にも廉価なソフトで似たようなやつはいくつかあるようです。

 

 

反響音について

ノイズ除去ソフトが苦手とするタイプのノイズです。何もしないのが無難。

ことUTAU音源に関しては、De-reverbが要るほどヤバい音はDe-reverbかけるともっとヤバいことになります。

 

 

局所的なノイズ

ここからはwav全体ではなく一部分にだけ乗っているノイズの話ですが、基本的には必要な部分だけを選択してかけることになります。

 

 

吹かれ(ポップノイズ)について

RX Standardの「De-plosive」で取るのが一番綺麗。

Elementsなら、スペクトラム上でノイズを選択して「Gain」で音量を下げるとか。

↑画像がひそひそ音源のものしか用意できなかったのでちょっと見づらい

 

下の方が低音なので、下に固まってる濃いやつが吹かれ成分です。

 

 

ツールがなければEQで100~200Hz以下あたりを切る事になりますが、声がカスカスになりがちなので本当に必要な部分だけをちょこっと選択してかけます。

 

 

リップノイズについて

ピチッていうやつ。

RX Standardがあれば「Mouth De-click」という喋りノイズ専用の機能があるのでこれを使いますが、RX Elementsの汎用「De-click」でもそれなりに取れます。

 

この手の機能はカ行やタ行などの必要な子音もまとめて消えてしまうため、子音かノイズかを的確に見分けてノイズにだけかける技術が必要になります。

↑囲った部分はノイズで、直後はkの子音

 

 

その他

鼻が鳴っている部分をスペクトル上で選択して音量を下げるとか、「Spectral Repair」で前後の音を学習して間を埋めるとか、できることは無限に色々あるのですが初心者向きではないので割愛します。

 

 

 

気づいたら8000字overの超大作になってました。

色々書きましたが正解はないので、色々やってみてください!