AI音声応答システム開発 現在の進捗状況と今後の方針について
皆様、いつもブログをご覧いただき、本当にありがとうございます。
本日は、現在開発を進めております「AI音声応答システム」の進捗状況と、今後の方針について、できるだけ分かりやすくご説明させていただきます。
現在取り組んでいるシステムについて
現在私は、
- ChatGPT
- 音声認識(Whisper)
- 音声読み上げ(VOICEVOX)
- ブラウザ通信
- 将来的な電話回線連携(PBX・SIP)
などを組み合わせた、新しいAI会話システムの構築に挑戦しております。
簡単に言えば、
「人間と自然に会話できるAI」
を、自分自身の手で一から作ろうとしております。
しかも、ただの文字チャットではなく、
- 音声で話しかける
- AIが返事をする
- AIが実際に喋る
という、“会話型AI”を目指しております。
現在の進捗状況
現在は主に、
① AI本体の構築
こちらを最優先で進めております。
具体的には、
- ChatGPTとの接続
- ブラウザでの会話
- サーバー通信
- キャラクター切り替え
- 会話の安定化
などを少しずつ進めております。
以前は全く分からなかったプログラムも、今では少しずつ理解できるようになってきました。
正直に申し上げますと、ここまで来られるとは自分でも思っておりませんでした。
② 音声機能の確認
現在、
- Whisperによる音声認識
- VOICEVOXによるAI音声出力
についても、実際に動作確認ができ始めております。
つまり、
「人間が喋る」
↓
「AIが理解する」
↓
「AIが音声で返事する」
という流れの基礎部分は、かなり形になってきております。
③ 電話システムとの連携準備
さらに現在、
- SIP回線
- PBX
- クラウド電話システム
などの調査・検討も進めております。
ただし、こちらは、
- 契約条件
- 本人確認
- 利用規約
- 技術的接続条件
などが複雑で、簡単には進まない部分もあります。
特に、電話会社側の審査や仕様の違いが大きく、一つ一つ確認しながら前へ進めている状況です。
今後の方針について
現在の方針としては、
「まずAI本体を完成させる」
これを最優先に考えております。
つまり、
まずはブラウザ版AIを完成
↓
YouTubeなどで実際に公開
↓
多くの方に見てもらう
↓
その後、PBXや電話回線へ接続
という流れを考えております。
なぜこの順番なのか
電話システムは、
- 契約
- 審査
- 回線品質
- 法律
- 利用条件
など、どうしても外部要因が多くなります。
しかし、AI本体そのものは、自分の努力で前へ進めることができます。
そのため、
「まず動くAIを完成させる」
という方向で進める方が、現実的であり、前進しやすいと判断しております。
YouTubeについて
今後は、
- AIキャラクターとの会話
- 開発の裏側
- 実験動画
- 失敗談
- 実際に動く様子
なども、少しずつ公開していきたいと考えております。
特に、
- マコト
- ミサト
- アカネ
といったキャラクター達を、実際に喋らせるところまで持っていきたいと思っております。
最後に
ここまで来るまで、本当に何度も失敗しました。
接続エラー、設定ミス、審査問題、通信トラブルなど、簡単には進みません。
それでも、一歩ずつではありますが、確実に前へ進んでおります。
私はこの挑戦を通じて、
「AIを使えば、普通の人でも新しいものを作れる」
ということを、少しでも証明できればと思っております。
今後とも、温かく見守っていただければ幸いです。
本当にありがとうございます。