専属ブロガー(自称)のシニアTです

ちょっとまえにかみさんから、「英語教材から日本語音声だけ消して欲しい」とお気楽に頼まれたので、やってみました
日本人女性は高い声で話すので、それで識別できれば楽勝だったんですが、英語でも質問は高音になり、簡単ではありません

日本人女性は高い声で話すので、それで識別できれば楽勝だったんですが、英語でも質問は高音になり、簡単ではありません

そのうえ、人の声の識別をまじめに検索すると、ケプトラムとかメロ周波数とかいう、昔の(?)妖怪が現れ、私を悩ませました

しかし、SVMを使いますと、パワースペクトラムの対数を使うだけで、うまくいくことが分かりました
0.1秒くらいの断片でも、未学習データで80%程度の精度となり、結果0.5秒を超えれば実質100%になります。

0.1秒くらいの断片でも、未学習データで80%程度の精度となり、結果0.5秒を超えれば実質100%になります。
識別には高い周波数成分が有効で、低い周波数成分は役に立たないこともわかりました。
高い周波数成分は脳が制御できないからでしょうね

上の(妖怪)ケプトラムは、機械の故障診断などにも使われるのですが、今後は不要になっていくのかもしれません。
CDの情報は、16bit×44KHzくらいなので、0.1秒分のパワースペクトラムでも、相当な情報量です。
PCAを使って自由度を圧縮できました。上から20個くらいの主成分を使えば十二分でした
(確か10個未満でもほぼうまくいった)
PCAを使って自由度を圧縮できました。上から20個くらいの主成分を使えば十二分でした

(確か10個未満でもほぼうまくいった)
学習データは、各20センテンスくらい用意したと思います。
PCAやSVMは前回紹介したAnacondaに同梱されています

かかったお金は、電気代の他は、常時接続のネット代くらいですから、便利な世の中になってしまいましたね。
※以上は全て私個人の体験による見解で、学問的根拠はなく、会社の意見を代表するものではありません。
今回のおまけ
今朝のお弁当セット(詰める前に毎朝、お皿に並べてます)
子供用には、デザートのスイカがついたはず
今朝のお弁当セット(詰める前に毎朝、お皿に並べてます)
子供用には、デザートのスイカがついたはず
