iPadの音声認識のしくみ

　iPadの音声認識のしくみである。

　一応、言語聴覚士専攻科で音響学なるものも教えていたので、ちょっとだけうんちくを。

　昔の音声認識ソフトに比べると、格段の進歩だ。
　だいぶ前に、ViaVoiceというソフトを使っていた。
　http://japan.nuance.com/viavoice/
　IBMで作っていた。
　今は、生産中止である。
　その頃には、デモ用の音声を、専用のマイクセットで１時間以上もかけて入力し、わたしの声の質を覚えさせる。
　それでも、変換には、一杯お茶を飲むくらいの時間がかかった。
　実際、手入力の方が遙かに早いので、結局、お蔵入りになった。
　きっと、部屋のどこかの段ボールの中でほこりをかぶっている。

　さて、音声であるが、これは、波形である。

　うえから、「あいうえお」である。
　波の形が全く違うのがわかると思う。
　でも、このままでは、分析できない。

　なので、こんな分析をする。
　音は、いくつもの周波数の音が混ざっている。
　その周波数ごとに、分析をするとこうなる。

　左から「あいうえお」。
　色の赤とか黄色い部分が音が強く、青の部分は音が弱い。
　その強調された部分を　フォルマントという。
　では、どのように母音を分析しているか。
　この、フォルマントの周波数の組合せである。
　と、こうなる。

　第一フォルマントと第二フォルマントの組合せで、母音が決まる。
　私たちの耳は、このいくつかの周波数を、ちゃんと聞き分けるという、素晴らしい能力を持っているんです。
　この周波数分析を、コンピューターでやる。
　実際には、第三フォルマントまで入れると、かなり正確になる。
　ただし、この図を見てわかるように、人によって、周波数には、かなりのバリエーションがある。
　話のクセもある。
　イントネーションやアクセントの違いもある。
　なまりもある。
　ですから、何の予備入力もなく、これだけ正確に認識できるのは、かなりの進歩だと言えますね。

　とにかく、使えそう。