私はチャットボットを構築する作業をしていて、入れたい機能の1つが音声からテキストへの変換(speech-to-text)です。スタートアップの一員なので、予算は間違いなく制約になります。同時に、セキュリティやコンプライアンスの要件があるため、外部APIに依存するのは避けたいと思っています。
MVPやパイロットのローンチに向けて、最初に取り組むべきだと思われるASRのアプローチ、またはアーキテクチャはどれなのかを検討しています。Whisper、Parakeetなどの選択肢を調べてはいるのですが、自分の制約を踏まえると、どこから始めるのが最善なのか少し不確かです。
同様のものを作ったことのある方から、ぜひ提案や見解をいただけると嬉しいです。特に、自前ホスト型モデルとAPIのトレードオフ、パフォーマンス、そしてデプロイのしやすさ(私はデプロイのためのチャレンジを受ける準備ができています)について知りたいです。
[link] [comments]



