振り出しのsvm（AIです）

専属ブロガー(自称)のシニアTです

ちょっとまえにかみさんから、「英語教材から日本語音声だけ消して欲しい」とお気楽に頼まれたので、やってみました

日本人女性は高い声で話すので、それで識別できれば楽勝だったんですが、英語でも質問は高音になり、簡単ではありません

そのうえ、人の声の識別をまじめに検索すると、ケプトラムとかメロ周波数とかいう、昔の（？）妖怪が現れ、私を悩ませました

しかし、ＳＶＭを使いますと、パワースペクトラムの対数を使うだけで、うまくいくことが分かりました

0.1秒くらいの断片でも、未学習データで80％程度の精度となり、結果0.5秒を超えれば実質100％になります。

識別には高い周波数成分が有効で、低い周波数成分は役に立たないこともわかりました。

高い周波数成分は脳が制御できないからでしょうね

上の（妖怪）ケプトラムは、機械の故障診断などにも使われるのですが、今後は不要になっていくのかもしれません。

CDの情報は、16bit×44KHzくらいなので、0.1秒分のパワースペクトラムでも、相当な情報量です。
ＰＣＡを使って自由度を圧縮できました。上から20個くらいの主成分を使えば十二分でした

（確か10個未満でもほぼうまくいった）

学習データは、各20センテンスくらい用意したと思います。　　　

PCAやSVMは前回紹介したAnacondaに同梱されています

かかったお金は、電気代の他は、常時接続のネット代くらいですから、便利な世の中になってしまいましたね。

※以上は全て私個人の体験による見解で、学問的根拠はなく、会社の意見を代表するものではありません。

今回のおまけ
今朝のお弁当セット（詰める前に毎朝、お皿に並べてます）
子供用には、デザートのスイカがついたはず

✤ We Love Softbrain ✤