ASRを使ったチャットボットの構築 [P]

Reddit r/MachineLearning / 2026/4/10

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical Usage

要点

  • スタートアップ向けの議論として、MVPの一部としてチャットボットに音声認識(ASR)を追加する方法を、厳しい予算制約を管理しながら検討します。
  • 著者は、初期のASRアプローチ(例:Whisper、Parakeet)をどのように選ぶべきか、またアーキテクチャ間のトレードオフについて助言を求めています。
  • 重要な要件として、セキュリティとコンプライアンス上の理由から外部APIを避けることが挙げられ、それによりセルフホスト/自己完結型の導入オプションの検討が促されています。
  • 貢献者には、性能と導入の複雑さの観点からそれぞれを比較検討することが求められ、著者は導入に伴う課題を自ら対応する意思を示しています。
  • 本記事は、近い将来のローンチに向けて、コスト、コンプライアンス、エンジニアリング工数のバランスを取りつつ実用的な出発点を選ぶこととして問題を位置づけています。

私はチャットボットを構築する作業をしていて、入れたい機能の1つが音声からテキストへの変換(speech-to-text)です。スタートアップの一員なので、予算は間違いなく制約になります。同時に、セキュリティやコンプライアンスの要件があるため、外部APIに依存するのは避けたいと思っています。

MVPやパイロットのローンチに向けて、最初に取り組むべきだと思われるASRのアプローチ、またはアーキテクチャはどれなのかを検討しています。Whisper、Parakeetなどの選択肢を調べてはいるのですが、自分の制約を踏まえると、どこから始めるのが最善なのか少し不確かです。

同様のものを作ったことのある方から、ぜひ提案や見解をいただけると嬉しいです。特に、自前ホスト型モデルとAPIのトレードオフ、パフォーマンス、そしてデプロイのしやすさ(私はデプロイのためのチャレンジを受ける準備ができています)について知りたいです。

submitted by /u/Excellent-Couple-394
[link] [comments]