振り出しのsvm(AIです) |     ✤ We Love Softbrain ✤ 

    ✤ We Love Softbrain ✤ 

        日々の仕事や、プライベートな趣味まで掲載しています。

専属ブロガー(自称)のシニアTですクローバー
 
ちょっとまえにかみさんから、「英語教材から日本語音声だけ消して欲しい」とお気楽に頼まれたので、やってみました音譜

日本人女性は高い声で話すので、それで識別できれば楽勝だったんですが、英語でも質問は高音になり、簡単ではありませんビックリマーク
そのうえ、人の声の識別をまじめに検索すると、ケプトラムとかメロ周波数とかいう、昔の(?)妖怪が現れ、私を悩ませましたショボーン
 
しかし、SVMを使いますと、パワースペクトラムの対数を使うだけで、うまくいくことが分かりましたビックリマーク
0.1秒くらいの断片でも、未学習データで80%程度の精度となり、結果0.5秒を超えれば実質100%になります。
識別には高い周波数成分が有効で、低い周波数成分は役に立たないこともわかりました。

高い周波数成分は脳が制御できないからでしょうねクローバー
上の(妖怪)ケプトラムは、機械の故障診断などにも使われるのですが、今後は不要になっていくのかもしれません。
 
CDの情報は、16bit×44KHzくらいなので、0.1秒分のパワースペクトラムでも、相当な情報量です。
PCAを使って自由度を圧縮できました。上から20個くらいの主成分を使えば十二分でした!!
(確か10個未満でもほぼうまくいった)
学習データは、各20センテンスくらい用意したと思います。   
 
PCAやSVMは前回紹介したAnacondaに同梱されていますビックリマーク
かかったお金は、電気代の他は、常時接続のネット代くらいですから、便利な世の中になってしまいましたね。
※以上は全て私個人の体験による見解で、学問的根拠はなく、会社の意見を代表するものではありません。
 
今回のおまけ
今朝のお弁当セット(詰める前に毎朝、お皿に並べてます)
子供用には、デザートのスイカがついたはず音譜