UTAUに代わるソフトが欲しい件 #UTAかわ | チラシの裏 ~UTAU調声メモ~

チラシの裏 ~UTAU調声メモ~

UTAUの調声の話を中心に、初心者向けの使い方からうまく歌わせるコツ・ニッチなネタまで、独断と偏見で書いています。

初稿:2016年2月

 

 

2016年2月追記:
なんだかタイトルのせいで盛大に誤解を産んでるようで申し訳ないんですが、この記事で言いたいのは「UTAUの使いやすい版作ろうぜ」ではなく、「UTAUがUTAU用音源に対応してないとかいう状況をどうにかするにはもうこれしかないんだ・・・」からスタートしてエスカレートした結果ですので、今までUTAUに代わるエディタソフトが流行ったことなかったじゃないか!に対しては今はCVVCの話してるから!!!って感じです。そうじゃないんです。

2017年1月追記:
話題が再燃してたのでわかりづらい部分とか直しました。
この記事内で「UTAUに代わる新しいソフト」は「UTAかわ」と略されます。

~~~~~~~~~~~~~~~~~~~~

UTAU本体の更新が止まって早2年半。
従来の音源を普通に使う分にはたいして困らないんだけど、音源制作陣の熱意が凄すぎて仕様が追いつかなくなってきており、そろそろ互換性のある別ソフトを作った方が良いのでは・・・
という意見は多いものの、色々と問題(使ってもらえるのか、音源のフォーマットがバラバラで対応しきれない、従来のUTAUの機能を吸収しきれない、作業量が膨大、誰がやるねん、やる気がログアウトなどなど)があって未だ新しいソフトはないのが現状。


私はプログラミングはできないので誰か作ってくれないかなーって言うことしか出来ないんだけど、まだ見ぬ「誰か」のために現在のUTAUの機能と仕様をおさらいしつつ新しいソフトのデザインを考えてみる。
使えるかどうかはわからずに書いてるから、参考程度でどうぞ。
基本的にはpresampにエディタを付けた感じです。



☆基本仕様

・できるだけUTAUに近い画面にする
 (導入時のハードルを下げる)

・UTAU用音源を使えるようにする
 (新ソフト用設定ファイルが必要な場合は、音源初回使用時に作れるようにする・生成のための設定画面を用意?presamp.ini的なやつ)

・ustファイルを新ソフトのプロジェクトファイルに変換できるようにする
 逆は無理そうな気がする(できたらいいな。優先順位は低い)
 MIDIインポート・エクスポートは出来て欲しい

・採譜段階の操作は一般的なDAWに近づける
 当然休符など存在しないんじゃ!
 (DTMerからの流入を狙いたい。願わくばオリ曲作って欲しい)

・調声の操作(ボーカル合成ソフト独特な操作、ピッチ・エンベロープなど)はUTAUを踏襲し、
 ノート長変更時のShift、Ctrlなどのショートカットも残す

・保存形式をMIDIに近い形にする(内部的な話)
 ノート位置は小節・拍・ティックで記録
 ノート途中でのテンポ変更や拍子の変更ができるようになる
 (この時点で一部UTAU用プラグインは使えなくなるが、UTAかわでUTAU用プラグインは動かなくてもいいかなって思ってる)

・ピッチ点もMIDIイベントみたいにする
 1点ごとに位置・音程cent・次の点との間(S、J、R、直線、線なし)の3要素を記録
 「線なし」は終点用
 音程は音階名で記録(ノート操作と連動して上下)、
 もしくはノートからの相対的な音程差を記録?(その場合休符(無音)上の点はどうするのか?)
 ノートとは独立した要素になるが、エディタ上ではノート移動と連動して動く
 前後どちらの点ともつながっていない点は自動で消える?
 →点を置ける範囲の制限がなくなる
 →ノート尾の音程調声が楽に
 →ダミーノートが必要なくなる

・UTAU用エンジンが使えたらいいな・・・
 エンジン併用もできたらいいな・・・

・結合器はデフォルトでwavtool4vcv(を新ソフト用にカスタマイズしたやつ?)
 というか自動で位相合わせをしてほしい
 エンジン+結合器という構図である必要はない(受け売り

・UTAUプラグインみたいにUTAかわ用のプラグインが作れたらいいな・・・

・presampの仕様を取り入れる
 歌詞を入れると勝手に連続音化・CVVC化
 できれば歌連続音や母音喚起点への対応も
 できれば海外音源の単語分割も
 presamp.iniを読む(後述のsuffix表示機能で使用)
 促音「っ」を入力時に、CVVC音素があればVCに変換する(後述。優先順位は低い)

・multi-prefixに対応

・原音読み込み数上限を高めに設定(できればスペックの上限まで?)

・できればマルチトラックで
 再生は無理でも表示だけならそれっぽくできないかな?
 もしくは同時に開いたプロジェクトファイルのノートを後ろに細く表示して欲しい(VOCALOIDみたいな)
 マルチトラックならオケと同時再生もできるかも?

・ノートのデフォルトmodは0にする。てかmodいる?

・自動バックアップ機能をつける
 クラッシュ時の復元だけでなく、上書きミス対策にも

・あったらいいなMac版
 Logic民が多いと聞いたので連携もできたら完璧
 開発コスト的に優先順位は低い(たぶん)



☆エディタ画面(GUI)

本家UTAUでは音符自体をいじる用のモードとピッチやエンベロープを編集するモードの2種類があるが、UTAかわでは歌詞・表情の編集、音素編集、ピッチ・ダイナミクス編集の3つを切り替える方向で考えた。
歌詞・表情とピッチ・ダイナミクスは頑張れば1画面内に収まるかもしれないが、ピッチがノート上に書かれると操作しづらいかもしれないので一応分けてある。

・歌詞(Lylic)表示モード

主に採譜、歌詞の流し込み、強弱やダイナミクスなど、音符と表情を調声するモード
presamp使用時の単独音状態のustみたいなイメージで、歌詞と表情のみを表示する

ノート入力時に音が出るようにしておく
(UTAUの「音符を置いた時に音を鳴らす」+「MIDI OUT」を両方デフォルトでオンにしてるような状態)

ノートが重なるような配置はできないのが望ましい
DAWに寄せるので、ノートの長さを変えても後ろのノートが全部いっしょに動いたりはしない!!!
(代わりに何小節分の無音を挿入みたいな機能を付けておく)
(選択位置より後ろのノートを全選択みたいな機能も付けておく)
(いっそのことリージョンみたいなものを設けてもいいかもしれない?)

ここでは、音量はノートごとではなく全体的にいじれたらいいな
ノートとは別個のパラメータという扱い
VOCALOIDでいうDYN、MIDIでいうエクスプレッション、DAWでいうボリュームオートメーション
UTAUのエンベロープやピッチみたいな点での制御だったらなおよし
下に波形も表示できたらいいけどリアルタイムレンダリング的なのが要るんだろうか
(耳ロボPのutawaviewが画面下にくっついてる感じ)

suffix(表情音)もここで変更
suffix用のボタンがあり、クリックすると表情音エイリアスの候補が表示されて選べる
(presamp.iniのAPPENDを読み込むとか)
ノートが短い場合、ノート内にごちゃごちゃ書くと見切れてしまうので情報量は最低限に


UTAkawa1


UTAkawa2


・音素表示モード

主に発音を調声。
先行発声・オーバーラップや子音速度的なものもここで編集
歌詞モードでは音楽的なエディットをするので楽譜に近いものを表示するが、音素表示では素材名(エイリアス)を表示するため相当ごちゃると思う

連続音やCVVCのエイリアスを表示。CVVCは分割
(英語音源の分割に対応するならそれも)
CVVC音素がある場合、促音(っ)をVCに変換する
(歌詞モードでは「っ」を表示、音素モードではVCを表示)

ノートごとの音量はここでいじる
(ノートごとというより音素ごとの音量ばらつき補正)
フラグも音素ごとに設定したいのでここ(CVVCでVCだけ声質明るいとかを直したい)

ノート内にはsuffix・prefix含めたエイリアスを表示
(表示オンオフボタンあったほうがいいかな?)
ノートをShift+右クリックで出る例の音素一覧メニューをもうちょっと見やすく工夫するか、某音素表示プラグインみたいなツールを作るかして、素材の差し替えができると良い

direct=true的なのとか子音速度はどうにか見やすく表示したい


UTAkawa4


UTAkawa5


・ピッチ編集モード

拡張ピッチエディタ(Mode2時)みたいなものを想定
こちらは見やすさではなく操作性アップのための別モード(押し間違いを減らしたい)
点は押しやすいようにちょっと大きめ表示で。

点上を右クリックで本家UTAUと同じようなメニューが出て、線形や詳細設定メニューが出る
(「線なし」という概念があるのは前述の通り)
詳細設定メニューでは音程・位置を数値指定できると良い

ノートとは関係ない(?)別個のパラメータなので、2つ先のノート上の点とを繋ぐこともできる。
現状UTAUが対応できてないCVVC分割後にピッチがアレな事象はどうにかできるのでは

ノートとピッチが別個とはいえ、隣り合った2つのノート間にポルタメントを追加(UTAUの組み込みツールのオートピッチみたいな)機能は要る
UTAU準拠の「ノートの音程差によってポルタメント幅が変わる」仕様と、連続音一括設定プラグインのような「幅をミリ秒指定してそのまんま反映する」仕様をチェックボックスで切り替えられると嬉しい

ビブラートはUTAUのビブラート機能を踏襲。
間違ってもVOCALOIDのような「周期の数値を上げると早くなる」みたいなのはやめて・・・msでいいからmsで!
できれば、ビブラートとピッチ線を足し算した線も表示してほしい
ビブラートはノートに紐づけたパラメータにするべきか・・・?
あと開始位置が指定できるんだから終了位置も指定できたらいいのに

ビブラートと連動してダイナミクスを書きたいので、ピッチモードでもダイナミクスが書けるか、歌詞表示モードのときにピッチ線をグレーで表示(本家UTAUのMode1トレース表示みたいな)してほしい

ピッチMode1みたいなやつはない。

UTAkawa3


・その他

prefix.mapの変わり目に線を入れて欲しい

選択位置/範囲に名前を付ける(マーカー、ラベルみたいな機能)
これも小節・拍で記録

MIDI風仕様なので、イベントリスト的なものを表示して、数値をいじれるようにするとか



☆その他(ぼやき)

表情音やmulti-prefix周りの実装はぜひ出来て欲しいけど難しいのかな?といった印象。
やはり現状の音源の仕様が固まってない(表情音やCVVCのエイリアス表記揺れ)のがめんどくさいなー。
一番手っ取り早いのは、表情音源は孫フォルダに入れろ!子フォルダに表情音prefix.mapを置け!なんだけど、従来の音源に完全対応しようとすると無理だし・・・

UTAUピアノロールエディタがMIDIに則ってない仕様はDTMerにはめちゃくちゃ嫌がられるので早急にどうにかすべきだと思う。
リアル知り合いにUTAU布教する上で一番ネックになってるのが「休符」という概念を理解してもらえないことで、これさえクリアすれば相当印象良くなると思うんだけどなぁ。
UTAUからDTM始めた人にはなんの苦もないので意外と忘れられがちですけどね。

今のUTAUは人力ツールではなく「人力VOCALOIDとしても使えるDTM関連ソフト」の枠組みに入っちゃってるので、そっち寄りにしていくことは絶対に必要だと思います。
かつ、presamp用エディタみたいなものを目指してみました。
そんでもって従来のUTAUの仕様も出来る限り吸収しようってんだからそりゃ難しいわな・・・

UTAU用エンジンとの互換については、再生時に無音部分に休符を補完して情報を渡すぐらいかな。
mode2のピッチはmode1にレンダリングしてから渡ってるらしいので、このピッチ仕様でも同じ要領でいけるはず。
むしろエンジン開発側から要望が飛んできそう。

どうでもいいんだけどprefixって今じゃまったくpreじゃなくない?
(一応エイリアスを設定しないで[A3/あ.wav]と打って使うみたいな過去があったらしいが)
収録音階をprefixと呼ぶのは後々誤解を生みそうというかもう生んでるかもしれない。


ここまで書いてとりあえず思ったのは、もし奇跡が起きて全部実装できてもめっちゃバグ出そう(ややこしそうだし)
あと「これ絶対無理だろうな」って思いながら書いてる仕様が何個かありました。


ところで、記事タイトルに「#UTAかわ」って入ってるのですが。
どうせこれ読んでも感想はTwitter行きだと思うので、ハッシュタグを作っておきました。
この記事への意見、UTAUに代わるソフトについての意見があれば呟いちゃってくださいな!