最近出始めている音声検索技術について | akusanのブログ

akusanのブログ

ゲーム、プログラミングなどなど種々雑多に興味あるものをのせております。プログラミングはたまにコード自体を載せております。

音声検索って最近Googleの機能でありますよね。
Androidとかiphoneで音声検索というアプリが。

ちょっとここら辺の話を少しは知っているので、ちょっと書いてみようかなと。
なるべく専門用語出さないようにしますが、それでもかなり出てくるような気がします。
わからなかったらすみません。
あと、内容に誤りがあるかもしれませんが、その時は了承ください。

音声検索は声を入力し、それを認識して該当箇所の結果を出していくるというもの。
テキスト検索を声にしています。
通常のテキスト検索と違うのは、テキスト化されいる内容はもちろんのこと、動画、音声データまでも検索して該当箇所を見つけてくるというものです。


具体的には音声認識の技術を使用しているんですが、Googleの検索は言語処理も含めた
認識をしていると考えられます。どういうことかというと、
音声認識は2段階あり、最初の段階で音響データから音素などの単位で認識をします。
音響モデルを参照します。(音響データの辞書と思っていただければいいかと。)
次の段階でその音素などの単位からそれぞれの言語単位での認識を行います。
音声認識用の単語の辞書が必要で、登録されていない単語があった場合は認識できません。
具体的には以下のような感じです。

音声認識の概要

akusanのブログ-音声認識概要



Googleのこの検索機能が発表されたときにどうもこの技術は音声認識をして検索をやっている
というようにみえたと伺っています。今現在はどのようになっているのかはわかりません。
使用してみた感じはあくまでもテキスト検索の部分を音声入力に変更しただけのようなので、グーグルの検索用のデータベースを使用した音声認識検索?とでもいえばいいんでしょうか、そのような検索をやっているようですね。

Googleの音声検索アプリの中身(推測予想)

akusanのブログ-Googleの音声検索システム???


一方、数社が発表している音声検索はそうではなくて、
音素などの単位で処理を終了して、そこから検索を実行します。
そのため、登録されていない単語がたとえあったとしても検索を実行することは可能となります。
さらに、動画、音声データのようなマルチメディアデータの内部も含めた検索を想定しています。
システムこんな感じですかね。気合いで作っちゃいましたパワポで。

音声検索システム

$akusanのブログ-各社の音声検索システム???


ここで問題になるのはネット検索を想定した場合に、通常の音声認識を使用した場合ではあまりにも
処理時間がかかりすぎて検索ができないということ。

これを解消するために、データベースに相当な量の音響モデルを登録しておいてそれを検索することによって、2000時間を3秒で検索できるとかあります。
(商品化済み。日立INSソフトウェア。元の技術は日立の中央研究所。)
他には独自の技術を利用して、100時間を1秒で検索というものもあります。
(こちらもすでに商品化済み。株式会社アニモ。音素変換技術のもとは富士通研究所。)
あとは、産業技術総合研究所のボイザーとかですね。
(研究段階。以前会社も立ち上げていたんですが、サイトがなくなっていました。)














日立の音声検索
Voice Searcher
発表当時の記事
日立中央研究所の発表記事
Animoの音声検索
Animo Serach
発表当時の記事
Animo Searchの記事
ボイザー
ボイザー
発表された時のプレスリリース
産業技術研究所プレスリリース


もしも、これがGoogleのような検索へ実現すると音声、動画すら検索をかけて結果が出てくるということが可能になります。
声で入力しなくても、テキスト入力でも可能となります。
まだまだ出始めたばかりです。今後この技術がさらに進化すれば
Googleとかyahooとかにいつの間にやら、動画や音声の内容のどの部分に検索キーワードがあると検索結果が出てくるかもしれませんね。