iPadの音声認識のしくみである。

 一応、言語聴覚士専攻科で音響学なるものも教えていたので、ちょっとだけうんちくを。

 昔の音声認識ソフトに比べると、格段の進歩だ。
 だいぶ前に、ViaVoiceというソフトを使っていた。
 http://japan.nuance.com/viavoice/
 IBMで作っていた。
 今は、生産中止である。
 その頃には、デモ用の音声を、専用のマイクセットで1時間以上もかけて入力し、わたしの声の質を覚えさせる。
 それでも、変換には、一杯お茶を飲むくらいの時間がかかった。
 実際、手入力の方が遙かに早いので、結局、お蔵入りになった。
 きっと、部屋のどこかの段ボールの中でほこりをかぶっている。

 さて、音声であるが、これは、波形である。
山田隆文の歯医者さん日記

 うえから、「あいうえお」である。
 波の形が全く違うのがわかると思う。
 でも、このままでは、分析できない。

 なので、こんな分析をする。
 音は、いくつもの周波数の音が混ざっている。
 その周波数ごとに、分析をするとこうなる。
山田隆文の歯医者さん日記

 左から「あいうえお」。
 色の赤とか黄色い部分が音が強く、青の部分は音が弱い。
 その強調された部分を フォルマントという。
 では、どのように母音を分析しているか。
 この、フォルマントの周波数の組合せである。
 と、こうなる。
山田隆文の歯医者さん日記

 第一フォルマントと第二フォルマントの組合せで、母音が決まる。
 私たちの耳は、このいくつかの周波数を、ちゃんと聞き分けるという、素晴らしい能力を持っているんです。
 この周波数分析を、コンピューターでやる。
 実際には、第三フォルマントまで入れると、かなり正確になる。
 ただし、この図を見てわかるように、人によって、周波数には、かなりのバリエーションがある。
 話のクセもある。
 イントネーションやアクセントの違いもある。
 なまりもある。
 ですから、何の予備入力もなく、これだけ正確に認識できるのは、かなりの進歩だと言えますね。

 とにかく、使えそう。