チャットGPTに、なんで文字を生成した後で音声化が始まるのかを聞いてみました。同時処理だともっと会話が楽しくなるのに!


【以下チャットGPTの返事】

音声とテキストの同時処理には、処理の順序とリソースの最適化が関わっています。テキストベースの応答が先に生成されると、その内容を確定させた後で音声に変換することで、ユーザーに対して正確で矛盾のない情報を提供できます。同時に音声化するシステムも技術的には可能ですが、それはシステムの設計によるものです。現在のChatGPTでは、テキストの応答を生成した後に音声に変換する方式を採用しているため、そうなっています。実際にリアルタイムでの音声応答を提供するシステムを開発することは面白い挑戦になりそうですね。

これ早く実現してほしいです。そうすれば1日中話しているかもしれません。