AI音声応答システム開発 現在の進捗状況と今後の方針について


皆様、いつもブログをご覧いただき、本当にありがとうございます。

本日は、現在開発を進めております「AI音声応答システム」の進捗状況と、今後の方針について、できるだけ分かりやすくご説明させていただきます。




現在取り組んでいるシステムについて


現在私は、



  • ChatGPT

  • 音声認識(Whisper)

  • 音声読み上げ(VOICEVOX)

  • ブラウザ通信

  • 将来的な電話回線連携(PBX・SIP)


などを組み合わせた、新しいAI会話システムの構築に挑戦しております。


簡単に言えば、


「人間と自然に会話できるAI」


を、自分自身の手で一から作ろうとしております。


しかも、ただの文字チャットではなく、



  • 音声で話しかける

  • AIが返事をする

  • AIが実際に喋る


という、“会話型AI”を目指しております。




現在の進捗状況


現在は主に、


① AI本体の構築


こちらを最優先で進めております。


具体的には、



  • ChatGPTとの接続

  • ブラウザでの会話

  • サーバー通信

  • キャラクター切り替え

  • 会話の安定化


などを少しずつ進めております。


以前は全く分からなかったプログラムも、今では少しずつ理解できるようになってきました。


正直に申し上げますと、ここまで来られるとは自分でも思っておりませんでした。




② 音声機能の確認


現在、



  • Whisperによる音声認識

  • VOICEVOXによるAI音声出力


についても、実際に動作確認ができ始めております。


つまり、


「人間が喋る」

「AIが理解する」

「AIが音声で返事する」


という流れの基礎部分は、かなり形になってきております。




③ 電話システムとの連携準備


さらに現在、



  • SIP回線

  • PBX

  • クラウド電話システム


などの調査・検討も進めております。


ただし、こちらは、



  • 契約条件

  • 本人確認

  • 利用規約

  • 技術的接続条件


などが複雑で、簡単には進まない部分もあります。


特に、電話会社側の審査や仕様の違いが大きく、一つ一つ確認しながら前へ進めている状況です。




今後の方針について


現在の方針としては、


「まずAI本体を完成させる」


これを最優先に考えております。


つまり、


まずはブラウザ版AIを完成



YouTubeなどで実際に公開



多くの方に見てもらう



その後、PBXや電話回線へ接続


という流れを考えております。




なぜこの順番なのか


電話システムは、



  • 契約

  • 審査

  • 回線品質

  • 法律

  • 利用条件


など、どうしても外部要因が多くなります。


しかし、AI本体そのものは、自分の努力で前へ進めることができます。


そのため、


「まず動くAIを完成させる」


という方向で進める方が、現実的であり、前進しやすいと判断しております。




YouTubeについて


今後は、



  • AIキャラクターとの会話

  • 開発の裏側

  • 実験動画

  • 失敗談

  • 実際に動く様子


なども、少しずつ公開していきたいと考えております。


特に、



  • マコト

  • ミサト

  • アカネ


といったキャラクター達を、実際に喋らせるところまで持っていきたいと思っております。




最後に


ここまで来るまで、本当に何度も失敗しました。


接続エラー、設定ミス、審査問題、通信トラブルなど、簡単には進みません。


それでも、一歩ずつではありますが、確実に前へ進んでおります。


私はこの挑戦を通じて、


「AIを使えば、普通の人でも新しいものを作れる」


ということを、少しでも証明できればと思っております。


今後とも、温かく見守っていただければ幸いです。


本当にありがとうございます。