正直な質問です。私は話題性だけでなく、声のAIにもっと深く踏み込もうとしていました。人々がそれがチャットの次の大きな進化だと言い続けるからです。しかし同時に、混在した意見を耳にします。誰かがこんなことを言っていて、それがずっと頭に残りました:
音声AIツールは、モデル自体を競っているのではありません。それらは、モデルの周りの全体をどれだけ上手く扱えるかで競っています。デモでは一方が滑らかに感じられますが、もう一方は実世界のごちゃごちゃした会話の中で実際に機能します。
背景として、私は長い間、テキストベースのLLMに主に取り組んできており、現在は音声エージェントをより真剣に構築しています。潜在的な可能性は見える一方で、まだ多くの粗さが残っています。レイテンシは予測不能に感じられ、中断は必ずしも上手く機能せず、何かが壊れると原因を把握するのが難しいです。
私は実際、音声AIワークフローを構築するためのオープンソースの音声エージェントプラットフォームを作りましたが、正直なところ、見た目が良いものと実際に安定して機能するものとの間にはまだ大きなギャップがあります。私の最大の懸念は、これは実際に役に立つのかどうかです。
音声AIエージェントを開発している方、またはすでに開発済みの方へ。長い会話におけるレイテンシ、中断、信頼性についての経験はどうでしたか?デモ以外の場面でも実際に機能しますか?
[リンク] [コメント]
