iPadの音声認識のしくみである。
一応、言語聴覚士専攻科で音響学なるものも教えていたので、ちょっとだけうんちくを。
昔の音声認識ソフトに比べると、格段の進歩だ。
だいぶ前に、ViaVoiceというソフトを使っていた。
http://japan.nuance.com/viavoice/
IBMで作っていた。
今は、生産中止である。
その頃には、デモ用の音声を、専用のマイクセットで1時間以上もかけて入力し、わたしの声の質を覚えさせる。
それでも、変換には、一杯お茶を飲むくらいの時間がかかった。
実際、手入力の方が遙かに早いので、結局、お蔵入りになった。
きっと、部屋のどこかの段ボールの中でほこりをかぶっている。
さて、音声であるが、これは、波形である。
うえから、「あいうえお」である。
波の形が全く違うのがわかると思う。
でも、このままでは、分析できない。
なので、こんな分析をする。
音は、いくつもの周波数の音が混ざっている。
その周波数ごとに、分析をするとこうなる。
左から「あいうえお」。
色の赤とか黄色い部分が音が強く、青の部分は音が弱い。
その強調された部分を フォルマントという。
では、どのように母音を分析しているか。
この、フォルマントの周波数の組合せである。
と、こうなる。
第一フォルマントと第二フォルマントの組合せで、母音が決まる。
私たちの耳は、このいくつかの周波数を、ちゃんと聞き分けるという、素晴らしい能力を持っているんです。
この周波数分析を、コンピューターでやる。
実際には、第三フォルマントまで入れると、かなり正確になる。
ただし、この図を見てわかるように、人によって、周波数には、かなりのバリエーションがある。
話のクセもある。
イントネーションやアクセントの違いもある。
なまりもある。
ですから、何の予備入力もなく、これだけ正確に認識できるのは、かなりの進歩だと言えますね。
とにかく、使えそう。
一応、言語聴覚士専攻科で音響学なるものも教えていたので、ちょっとだけうんちくを。
昔の音声認識ソフトに比べると、格段の進歩だ。
だいぶ前に、ViaVoiceというソフトを使っていた。
http://japan.nuance.com/viavoice/
IBMで作っていた。
今は、生産中止である。
その頃には、デモ用の音声を、専用のマイクセットで1時間以上もかけて入力し、わたしの声の質を覚えさせる。
それでも、変換には、一杯お茶を飲むくらいの時間がかかった。
実際、手入力の方が遙かに早いので、結局、お蔵入りになった。
きっと、部屋のどこかの段ボールの中でほこりをかぶっている。
さて、音声であるが、これは、波形である。
うえから、「あいうえお」である。
波の形が全く違うのがわかると思う。
でも、このままでは、分析できない。
なので、こんな分析をする。
音は、いくつもの周波数の音が混ざっている。
その周波数ごとに、分析をするとこうなる。
左から「あいうえお」。
色の赤とか黄色い部分が音が強く、青の部分は音が弱い。
その強調された部分を フォルマントという。
では、どのように母音を分析しているか。
この、フォルマントの周波数の組合せである。
と、こうなる。
第一フォルマントと第二フォルマントの組合せで、母音が決まる。
私たちの耳は、このいくつかの周波数を、ちゃんと聞き分けるという、素晴らしい能力を持っているんです。
この周波数分析を、コンピューターでやる。
実際には、第三フォルマントまで入れると、かなり正確になる。
ただし、この図を見てわかるように、人によって、周波数には、かなりのバリエーションがある。
話のクセもある。
イントネーションやアクセントの違いもある。
なまりもある。
ですから、何の予備入力もなく、これだけ正確に認識できるのは、かなりの進歩だと言えますね。
とにかく、使えそう。