IVR Interactive Voice Response(インタラクティブボイスレスポンス)よくよくあるやつですが、

 

「オペレーターへお繋ぎする場合は1を、違う場合はシャープをおして下さい」

→全てが完結するタイプ、それでも対応できないのはオペレーターに繋ぐタイプ

 

「只今から音声ナビにお繋ぎしますので土地等に従って番号を入力して下さい(転送、ポチポチと入力)オペレーターが応答します、入力ありがとうございましたー」

→オペレーター連動型

 

こういう仕組みをIVRというんですけど、進化が進んでいるようだーという話

 

近年はIVR+音声認識=ボイスボットと称したソリューションが拡大中。例えば、Microsoft。あらゆるコールがほぼボイスボット(+AI応答のコンボ)。気配としては、生命保険・クレジット会社、コールセンターでも次々と採用が増えているよう。


これにはライセンスやセキュアな情報を含んだ認証系も含んでます。

(Windows11マシン増やしたのですが、ライセンス認証系がうまく行かなかったので、20分ぐらいかけて 30桁ぐらいのキー情報を読み上げさせれました。相手のボットは、ゼロの発音がかなりネイティブで3パターンぐらいあって、日本語耳では聞き取りにくかった)

 

 

Q.おいおいセキュアなところ大丈夫なのか
概念としては ”システムが”'(*1) ダイヤル音=パルス信号を受けて信号として0-9の情報受け取るかパルス信号の代わりとしての、口頭音声解析結果を0-9で受け取る。という扱いの違いしか無い

セキュリティ上の問題は近くで聞き耳を立ててかつ覚えて、悪用しようとしてる人が居たらまずい。

*そういうことは何者かに脅されて入力してますよ、でもない限り無いかな。どうなんだろう

(*1)上記システム上の扱いでは、という記載の意図は 当然対人で他人が知り得る形での-安易にクレジットカード番号を口から引き出す事はNGなので セキュアなシステム上での、扱いとしてが前提です。

近年のクレジットカードの悪用は著しく、また声(声紋)が記録される事が基本なので、犯罪防止にも役立つというところはあるようです。結構な容量のサーバが必要な気がする。

メリット:

・キーボードでの推し間違いが減るので お客様の再入力といった手間が減る

・書いてる文字を読むだけというのがクライアントのアクションで、結構な速度で発音しても割と認識するのであっ、楽だとはおもった。


デメリット:

・音声認識の技術レベル程度により逆にマイナス(要するチューニング)

・通信環境でうまく行かない、はどっちも一緒だけど システム数字として認識するために必要な情報量が違う。信号1つと人の喋る単語。というのは結構デメリットかもしれない