ボーカル リムーバー(音楽データから、ボーカルを抽出・除去する)は、WEB 上のものは使ったことがあるのですが、使える量が決まっていたり、データーをアップロードするのも権利関係や個人情報でヤダなと思っていたところ、Free ソフトで同じことができるものを見つけたので使ってみました。
Ultimate Vocal Remover v5 (UVR5)
音楽の傾向や楽器の編成にもよるのでしょうが、2~3曲ためしてみたところ、凄い精度で抽出・除去してくれました。
どういう仕組みのソフトかというと
VR系 U-Net(音声を短時間フーリエ変換して時間-周波数平面上で環境音が存在する領域(マスク)を予測・分離)
+ MDX-Net(「ボーカルが存在する確率マスク」と「楽器が存在する確率マスク」を出力し、元の混合スペクトログラムにこのマスクをかけて、ボーカル部分とインスト部分を分離 → 逆フーリエ変換(iSTFT)で波形に戻す)
+ Demucs v4(波形+スペクトログラムハイブリッド)
という三大主流音源分離モデルアーキテクチャをを1つのGUIアプリケーションに統合したもの
状況に応じてモデルを切り替えたり、Ensembleで組み合わせることで、他の一発ツールでは出せないレベルの分離品質を実現したのだそうです。
これで、歌の上手い歌手のボーカルを抽出してみると、余計に歌の上手さが分かって、さすがにプロの歌手だなと感動させられます。
また、カラオケも簡単に作れます(但しガイド無しですからすごく歌うのは難しい)。
すごい時代になったものです。
そうそう、IK Multimedia で、歌声を入れ替えられるソフト「ReSing」(リ・シング)というのがありますから、これを使えば、自分の声に入れ替えた曲も作れるのかもしれないですね。あまり聞きたくないですけど。

