■　つぶやき

　先日は、

でNRについて書きましたが、今回は、音を扱う場合の機材について書こうかなと思います。

■　現在の録音の音質　　　　　　　　　　　　　　　　

　現在の録音といのは、デジタルデータでの収録なので、個人レベルで使う物でもPCMを使います。

　とは言っても、現在は、

　■　DSD

　■　リニアPCM

の二種類がありますが、オーディオインターフェースを使ってトラック編集を行う場合やDAWを使って音楽のミキシングを行う場合だと少し融通が利かない（この理由は後で書きます。）DSDではなく汎用性のあるPCMが用いられています。音を鳴らした時の周波数の状態を見た上で選ぶことになりますが、現在のオーディオインターフェースがサポートしている音質は、エントリー製品でも　【　24bit/192KHz対応　】　の製品が増えています。その為、この音質が上位製品しか対応していないというのは過去の話になります。

　その為、周波数の成分からすると、個人が機材を購入して作業をする場合だと、24bit/192KHzでは機材性能が露骨に出るので、差が出てしまいますが、CDDAや24bit/48KHzや24bit/96KHzではそれほどひどくない状態になります。その為、上位のポータブル製品やブレード製品と比較してしまうと差が出てしまうので機材性能は出てしまう事を踏まえて製品の選択をすることになりますが、現在の機材がサポートする最高音質はエントリー製品でもそうなっています。

　現在は、

【　AndroidやiOS　】

　　24bit/48KHz

【　エントリーのオーディオインターフェース　】

　　24bit/192KHz

【　一般的なPCMレコーダー　】

　　24bit/96KHz

となっていますから、CDDAと言うのはダウンサンプリングを行った音響ソースになります。

　市販の音楽のCDの音源ですが、マスタリング後にその音質にダウンサンプリングを行っているので、週六段階の音源はハイレゾです。それをミキシングしてダウンサンプリングを行うので、この工程をミックスダウンと呼びます。

　映像もそうですが、放送で流れてきているソースで収録しているわけではないので、MPEG-2_TSで映像を収録すると相当ひどいことになるのでそれをもとに編集を行って映像を作るという選択肢自体が上位機を逸している間違いになりますが、それと同じように、CDDAの出力を個なっているCDの音源についても収録段階だと当然のように高音質の録音が行われています。

　現在は録音ソースを扱うとしても、24bitのソースを個人レベルで使える時代になっているので、CDDA音質と言うのは、録音を前提に考えると、現在では低音質ソースの部類になります。

　このように、ごく当たり前の機材でもこうした状態ですから、CDDAで録音すっるというのはボイスレコーダーレベルの用途と言う事になります。

　現状において高音質の録音となると、32bitの記録やDSD記録の機材がありますからハイレゾ配信お音源よりも高音質な物を使うことが可能になっています。その為、業務用機材やポータブル製品やブレードの上位製品だとそう言う物が存在しています。

■　録音環境　　　　　　　　　　　　　　　　　　　　　　

　現在は動画をDSLR製品で収録するとしても、映像を別のカメラで収録するとしても、バランス入力を行う機材が必要になります。基本的に

　■　コンデンサマイク

　■　ケーブル

　■　オーディオインターフェース

　■　PC

の構成で録音が可能になります。これ以外だとスタンドアローンタイプのミキサーに録音機能がある物もありますし、PCMレコーダーなどもありますが、上記の構成になります。マイクの種類ですが、指向性をどうするのか？なども含めて考えることになりますが、

　■　単一指向性

　■　無指向性

だけではなく、　【　双指向性　】　の選択の選択が存在する物があり、この選択をするとマイクの左右に向かって個別に指向性を広げたような録音ができます。谷津指向性がショットガンマイクで、無指向性が広範囲に音を拾う物になります。

　つまり、目的で使うマイクが異なるので、どういう音をどんな形で拾うのかでマイクの選択が変わります。双指向性の物というとMSマイクとかがそうした選択が可能になりますが、通常の一つのトラックの実を記録するようなマイクだと指向性が決まっているので、何が選択できるのか？を見ることになります。

　MSマイクは録音方式が特殊なので、それをステレオに変換する工程が入りますが、　【　ステレオソースを記録するマイク　】　なので、これは単一のモノラルソースを記録する通常のマイクとは異なる仕様の物になります。

　その為、通常の音の収録で使う1chで一つの音源を用意するという収録方法のマイクだと指向性の差異しかないので、こういったステレオソースの双指向性と言う概念は存在しません。

■　ステレオ音源　　　　　　　　　　　　　　　　　　　　

　これは、LとRの二つがあるので、記録段階だと2トラックのオーディオが記録されます。その為、Audacituyなどの波形編集ソフトでそう言った音源を開くと2つの波形が出てきます。

　ステレオマイクというのは、

【　モノラルチャンネルがステレオペアで記録されている状態　】

ですから、オーディオトラックが2つ発生します。これが、PCMとして記録されるときに一つのコンテナに二つのトラックが格納されているので、2本のトラックがまとまった状態になっています。

　その為、PA製品に２本のマイクを接続して録音した場合、2つのモノラルソースができるのですが、これをDAWや波形編集ソフトに持って行ってステレオソースとしてPCMで書き出す事ができます。ステレオ録音というのは、マイクがステレオであることが大前提ですから、その条件を考えると、そのマイクにはLとRの記録が可能な二つのマイクが実装されていることになります。

　MSマイクの場合3つ入っているわけですが、ステレオの場合だと、モノラルソースを複数用意しなければ記録できない仕様になっているので、通常、マイクというとモノラルソースを記録する時の特性がどうなっているのか？を見て判断することになります。

　しかし、映像用の物だとステレオの物もあるので、ステレオ記録用に二つの入力用のマイクと二系統の出力を持つものがあります。これがバランス入力で接続する場合にはそう言った接続になります。一つのピンジャックで接続するような音声の接続はアンバランス入力になります。その為、バランス入力のようにノイズの少ない状態で録音できるような物ではありません。また、アンバランス入力だと楽器もそう言った仕様で、電子楽器についてはTS端子を用いますが、これもアンバランス入力です。

　ステレオは2つのマイクを用いるように、サラウンドの場合、チャンネル数分のマイクを必要とします。

■　モニタリング　　　　　　　　　　　　　　　　　　　　　

　録音環境では、マイクで拾った音をケーブル送信してオーディオインターフェースで音を仕様に合った形で出力（と言うか、コンデンサマイクでは電源が必要になるのですが、通常はファンタ無電源を用います。オーディオインターフェースではそうしたファンタ無電源対応で、別途電源を用意しなくても、マイクをXLRのケーブルで接続するだけ音を拾うことができるものがあります。製品を選ぶときには、こうした仕様にも注意する必要があります。）して、それをUSBでPCに接続して、ソフト側で取り込むという流れになります。

　単独で内臓記録を行う製品だと、本体側で行うのですが、MTR製品やPA製品で録音機能ある物については単独でマイクの音を記録することになります。当然音はこれで録音できますが、音の状態の確認をする必要があります。この時に、　【　モニターヘッドフォン　】　を用意することになります。つまり、入力された音をオーディオインターフェース側で拾う必要があるので、それを出力インターフェースとしても使います。つまり、入出力においてオーディオインターフェースが主な処理を行う部位になり、そこで入力と出力を指定した音質で使用することになります。この構成が、DTMで卓録をする場合の機材の選択になります。

　モニターヘッドフォンとスピーカーでは、定位が解りやすいのスピーカーですが自宅で使う場合だとヘッドフォンにすると音漏れがなくなるという利点があります。

　屋外の動画撮影時に録音を行う場合にスピーカーを持ち出すわけにはいきませんから、そうした用途だとヘッドフォンを用いることになりますが、音がどうなっているのか？の確認用にリスニングではなく原音に忠実なヘッドフォン（リスニング用は音をよく聞こえるように加工してあるので、原音に忠実な物を用意して、その聞こえている音を仕上げるようにする必要があります。）を選択することになります。

■　ミキシング　　　　　　　　　　　　　　　　　　　　　　

　音を作る場合だとモノラルで記録してそれを定位させていくことで音を作ることができるのですが、DTMの場合、各パートの音源はMIDIと同様にモノラルソースです。

　音を録音する場合には、機材で特性が異なるので、録音すると言っても、【　指向性が解っていないと特性を間違う　】のでまともな作業になりません。例えば、アンビエントを録音するようなステレオマイク（会議用で使うような全体の音を録音するような製品、無指向性の表記がある物や、ピンマイクなど）を用いた場合、楽器の音を録音するような物ではありませんし、単一指向性と言ってもズームマイクやショットガンマイクのような指向性の狭い物とそうでない物ではと久遠寺に得られる音が全く違います。つまり、周辺の音まで披露ような指向性の製品でショットガンマイクのように録音できないというのは機材特性としては当たり前なので、機材特性を理解して使うことになります。つまり、購入をするという条件になると、当然のように何をする物なのか？やどういう音を得る目的なのかを考えて選ぶことになります。その上で集めた音を使っていくことになります。

　ミキシングというのは現在のようにPCMを使える時代だと複数の周波数を持つ音をそのままデジタルデータで用意できますが、音と言うのは周波数成分の集合体になります。つまり、基本的に音と言うのは音楽で出てくる　【　和音　】　です。つまり、Amとか7ｔｈコードとかと同じ和音なので、オシロスコープのパルスのようには聞こえないわけです。

　こうした内容は音声合成における周波数成分の合成について少し学習すると【　周波数とその波形の変化で音ができている　】と言う事が確認できるのですが、シンセの音作りにしても複数の波形を指定してそれを調整した物を合成することで音作りをするような仕様になっています。つまり、根本的なモノラルソースの単音の音声についても、周波数成分の組み合わせで合成されているのでそう言った音が存在しているわけですが、ミキシングについても音楽の場合だと楽器のパートが存在しますから、これも音の組み合わせで成立している物になります。

　ただし、楽器の音と言おうのは一か所から出ている物ではありませんから、当然のように定位を行う必要があります。

　音と言うのは発信源が存在してそこから空気の振動によって伝達されます。そうなると、楽器が複数存在する場合、同じ場所に固まって音が出るというのは物理的にあり得ない話になります。この状態と走者が演奏する場所で耳にする音が同じになるわけがありません。

　つまり、現実世界では少なくとも奏者の空間座標と言う物が存在する訳ですが、そいこから遮蔽物も含めた影響も踏まえて、空気の波の伝達が行われます。現実世界の音というのは水面に発生した波の伝達のように広がる物ですから、完全な物理モデルが存在する物理現象と言えます。ここに物質の状態や種類による伝達の変化まで含めるとかなり複雑怪奇な物が出来上がるので、義務教育課程で登場する音の伝達と言うのは　【　そもそも、音と言うのはどういう物なのか？　】　と言う内容や、　【　音はなぜ伝わるのか？　】　と言う仕組みや、　【　音はの変化はなぜ発生するのか？　】　　などを学びます。　

　その上で、物を知った状態でその周波数の変動でどういった変化が発生するのか？やその伝達においてどういう反響をするのか？などを学ぶことになりますが、実際に、音の特性を学ばなくても、

【　音には聞こえる向きが存在する　】

事は体感的に知っているはずです。前後左右で音の聞こえ方は異なりますが、　音の位置で聞こえる方角や高低差が変化するする　のは誰かに教わるまでもなく知っている事だと思います。では、この条件を考えると、　【　聞こえている向き　】　が存在しているわけですが、その条件において　【　聞こえにくい向き　】　も存在します。人の耳の形状から考えると前面の音のほうが聞こえやすく後方の音は聞こえにくいはずです。と言うのももしもそれが逆の特性だった場合、ライブ会場のスピーカーの構成はステージ側ではなく、観客席の後ろ側に設置することになるからです。しかし、音は波ですから、遮蔽物があるとその遮蔽物を避けてしまいます。つまり、その音が聞こえる場合迂回して回り込んだ音になります。そうなると、エアロダイナミクスのように流したうえで余計な音を聞こえにくくしている後ろ側と側面や前面からの音だとどちらが聞こえやすいかと言うと後者になります。当然、ダクトのような形状で気流を送りやすくなっている前面とそうではない側面だと前面のほうが効率的に音は聞こえるはずです。そう考えると、音を直接届ける場合には全面から音を発生させるほうが効果的と言う事になります。

　この条件で考えると、

　■　前面　：　聞こえやすい

　■　側面　：　やや聞こえやすい

　■　背面　：　聞こえにくい

訳ですから、レーダーのように円状の平面空間を想定した場合、少なくとも、全面の180度位の範囲はカバーされていると言う事になります。しかし、音の量を変えると、前面と側面では変わってくるでしょうから、各喉推移でその半円も状態が変わってくるはずです。つまり、これが聞こえる範囲の特性になります。

　マイクの特性と言うのは、こう言った聞こえやすさが関係しており、特性としてマイクを向桁場合にどの方向の音までをマイクが集めるか？と言う特性が機材によって存在しています。これが指向性になります。

　では、音が単音で発生源が一つの場合だと、それはただの座標変動のみになりますから、モノラルソースの場合だとフェーダーでの音量調節になりますが、これはその音のみを録音する場合に使用しますがそうした場合、入力数を増やして音を個別に鵜録音することになります。

　この時に、マイクには指向性があるのでその特性（これは指向性と音の特性も含めます。）を考えて使うことになりますが、ステレオとなると、ステレオベースを用意して、マイクの指向性をどういった形で使うかで録音できる状態が異なります。つまり、ステレオの定位というのは、

【　音の位置をL/Rの二つのマイクの指向性の空間の中のどこに

配置するかを指定する作業　】　　　　　　　　　　　　　　　　　　

になります。つまり、ステレオのソースだと、個別の音には平面座標が存在しているので、リスニングを行っている人の全面にステージ状の空間が存在しており、そこからどう聞こえるかを調整することになります。

　モノラルソースを使って、配置を行うことで音を加工するというのを以前

のようなのを行いましたが、素材自体は単音ですが、ステレオで音を散らしたソースでは個別の音が違う場所から聞こえて重なっているはずです。つまり、ステレオの場合、モノラルソースのようにセンターの音のみでそれがフェーダーで音量が変わってるだけの物ではなく、パンポットなどで左右の位置とフェーダーによる前後の位置の設定を行って調整が行われたものになります。

　ステレオで録音を行うと、環境音もステレオで記録された場合には音の遠近感と音の座標が存在します。つまり、モノラルソースで音を用意してミキシングを行う場合、どう聴こえるか？を考えて音を仕上げていく必要があります。

　現在は複数のトラックを扱うソフトだと大抵は、

のようなミキサーが実装されているので、これで個別のトラックの低位を行います。

　フェーダーは奥行きで、パンポットはL/Rのどちらにどの程度寄った状態なのかの設定になります。これを入力ソースのすべてに行うことになります。

■　サラウンド　　　　　　　　　　　　　　　　　　　　　　

　動画を作る場合、サラウンドの音源を使うことがありますが、この場合、チャンネルの並びが存在します。基本的に、

　■　ステレオ　：　Ｌ：１　Ｒ：２　

　■　3ch　：　Ｌ：１　Ｒ：２　Ｃ：３

のような増え方ですから、5chだと、これに3と4デステレオペアが増えることになります。つまり、数字順にチェーン上に並んでいるわけではありませんからパンポットで振ると1から３に移動することはありません。

　その為、Audacityのミキサーでミキシング場合だと、　　チャンネルの番号に注意する必要があります。

　サラウンドの音声ですが、

で紹介したようにチャンネルを5本用意することになります。　

　その為ミキシングではなく空間の音を記録する場合だと、5本折マイクが必要になりますが、素材を組み合わせて作る場合だと、5本以上の素材を用意することになします。

　サラウンドだと、以前書いたようにBlenderでもサラウンドに出来るのですが、これは、トラック編集ではなく、カメラを中心とした状態でその周囲の音がそのまま指定したチャンネル数のサラウンドソースとして定位されます。こ指定後にミックスダウンを大なうと指定したちゃん年ネル数のオーディオ形式で書き出すことができます。これを動画に合わせることで5.1chのオーディオと映像を組み合わせた動画にすることができます。

　現在のサラウンドのミキシングはレーダーのような円形のミキサーで調整するような仕様になっているので、どの位置で音が鳴るのかを直感的に指定できます。

　サラウンドだと、オブジェクトベースの物もありますが、市販のソフトではそうした高さを持ったサラウンドのミキシングが可能になっています。その中には層を持つSHVで採用されている22,2chもありますが、こうした録音も空間の音として収録する場合にはチャンネル数分のマイクを用意して収録することになります。

　OSSだとそうした高さのあるサラウンドは作れなかった気がするのですが、YouTubeの360度の映像で使用できる

【　視点追従型のオーディオ　】

のアンビソニックだとReaperでプラグインを使うと作れるようになっています。

■　とりあえず。。。　　　　　　　　　　　　　　　　　　　

　録音を行うときにはマイクの選択を行うことになりますが、指向性がどうなっているかも重要になります。これと同時に、

■　ダイナミックマイク

　　　　・　電源不必要

　　　　・　丈夫で比較的湿度に強い

　　　　・　感度が低い

■　コンデンサーマイク

　　　　・　電源必要

　　　　・　振動や湿気に特に弱い

　　　　・　感度が高い

と言う特性があります。その上でそれをどれだけのチャンネル数用いれ録音するか？を考えることになります。

　録音を行う場合の機材構成で考えると、ポータブル製品からPA製品まであるので用途で選択が変わってきますが、録音環境と同時にモニタリングを行う環境をそろえる必要があります。

　現在は、個人でもハイレゾの音源を録音で使用できる時代になっており、サラウンドでもそう言った音源を使える時代になっていますが、無償のソフトを使った条件でもアンビソニックオーディオの製作を行えるものも登場しているので、個人が製作できるオーディオと言うのはステレオ屋さアラウンドだけではなくアンビソニックまで製作できるようになっています。

　DSDについてですが、これはA/D変換を行っていないのでサンプリング周波数のみで音質を担保しています。その為、写真のRAWデータのような処理しかできません。つまり、複数のトアックでの処理をする選択肢が通常は存在しません。と言ってもSonarはそれが内部処理でPCMに変換することで可能だったのですが、通常のDSDの状態だとそうした処理ができない仕様になっています。

　PCMと言うのはアナログソースをA/D変換しているので、これは、二次元配列の座標で制御できるようになっています。音の波形はは音量と周波数成分で出来ていますが、波形の波の高さが小さくなると音量が小さくなり高くなると大音量になります。そして振り切れると音は割れます。そして周波数の振幅の幅が狭いほど高温になり、広くなると低音になります。この時の音量の分解能を制御するのが量子化ビット数で、ピッチシフトの周波数の分解能を高くするのがサンプリング周波数になります、この二軸をグラフのマス目のように使用してサインカーブを描いているので、量子化ビット数とサンプリング種は数が高いほど音質が高くなります。しかし、そういたデータが増えると容量が増加しますから、当然のようにファイルが巨大になりますそうなると、秒間に転送する容量を担保する必要がありますから、この要領を決める必要があります。この時の容量の転送レートがビットレートになります。

　PCMに変換すると既にコントロールできる型式になっているので、画像編集ソフトでレイヤーを使って合成をするようにPCMファイルを用いてミキシングが行えます。こうした違いがあるので、一般的には、PCMにしないとミキシングができない仕様になっているので少し扱いにくい部分があります。ただし、音質面で劣っているので使われないとかではなく、仕様的にそう言う状態になっているので少し取り回しに煩雑な部分がある感じの形式になります。

■　Appendix　　　　　　　　　　　　　　　　　　　　　　　

　近年は無償のDAWが複数存在していますからDTMも行いやすいいい時代になりました。市販のソフトもすごいことになっていますが、市販のソフトと言うと、DSD対応だったSONARが2017年に開発中止になっていますが、現在は、【　BandLab Technologies　】　によって生まれ変わりました。これは無償で利用できるDAWですが、

【　SONAR Platinumとほぼ同じスペック　】

を持っており、日本語対応と言う結構すごい仕様になっています。

■　cakewalk by BandLab

　　　https://www.bandlab.com/products/cakewalk

■ つぶやき

■　つぶやき