フォルマント周波数の比率

昨日、私のココログのメルマガに次のようなコメントがありました。

投稿：ぬこ | 2012年2月19日 (日曜日) 21時15分

ちなみに「F2とF1の比率」（というか、この2つだけじゃなく、各フォルマント周波数の比率なのですが）の時間的変化を聞いていることを証明するのは簡単です。

ある音声をテープで早回し、または遅回しします。

テープを早回しすると、声の高さが高くなる（ピッチ周波数があがる）と同時に、フォルマント周波数も高くなります。例えば、２倍早回しすると、声の高さは２倍、各フォルマント周波数も２倍になります。しかし、言語として正しく知覚できます（甲高い声になりますが）

テープを遅回しすると、声の高さが低くなる（ピッチ周波数が下がる）と同時に、フォルマント周波数も低くなります。例えば、２倍遅回しすると、声の高さは半分、各フォルマント周波数も半分になります。しかし、やはり言語として正しく知覚できます（オカマっぽい声になりますが）

上記の２つの操作で変化していないのは「フォルマント周波数の比率」です。
・・・・・・・・・・・・・・・・・・

このような説明は分かり易いかも知れません。人間は音素のような静的な音でなく変化を聞いております。

しかし、これは事実ですが、その説明が大変に難しそうな説明になります。こうやって具体的な例を上げて説明するとなるほど誰でも分かり易い説明になります。

どうもこの変化をベクトルのような形で感知しているのではないかと言われています。つまり人間の蝸牛が感知するのはその音の変化をベクトルの変化として感知して、脳がそれを感知するのではないかと言われています。

私の主張して事が分かり易く説明でき、うれしく思っています。

最適性理論（音のストリーム）で英語を覚える