なぜ自動音声認識(ASR)モデルはプロンプトを使わないのですか?

Reddit r/MachineLearning / 2026/4/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 著者は、自動音声認識(ASR)にプロンプト機能を加えることで、特に声のエージェントでの実運用性能を高められる可能性があると提案しています。
  • Deepgramのような既存の手法である単語ブーストには実用上の限界があると述べており、現場ではうまく機能しない場合があるとしています。
  • 会話の履歴を文脈としてASRモデルに与えることが、声のエージェントにとって有益になり得る点を挙げ、プロンプトに近い形式でASRを微調整する試みを紹介しています。
  • 明示的な単語リストを大量にブーストするのではなく、「オーストラリアの都市」「食べ物の名前」「テレビ番組」などカテゴリ単位で指示することで、コンテキストウィンドウ制約も回避できると示しています。
  • こうした有用性があるにもかかわらず、なぜプロンプト(類似の条件付け)がASRモデル全般で一般的な機能になっていないのかを主な問いとして投げかけています。

私はフル二重の音声モデルの「聞き取り」部分に取り組んでいたのですが、ASR(自動音声認識)のプロンプトがとても有用になり得ることに気づきました。

Deepgram では単語のブーストが可能ですが、現実のアプリケーションではうまく機能しません。

ほかに欠けているのは、ASRモデルへの文脈として、会話履歴全体を入力することです。これは音声エージェントにとって非常に有用になり得ます。

TLDR、テスト中に、モデルが次のようなテキストによるプロンプトに対してうまく微調整できることに気づきました:

<text>ライセンスプレートを期待してください(3文字、3数字)。たとえば ABC123。</text><|start|> 

または

<text>人の名前を期待してください。姓を含む場合もあります。たとえば John Doe。</text><|start|> 

ブーストしたい特定の単語をすべて指定する代わりに(場合によってはそれが現実的でなかったり、コンテキストウィンドウが足りなくなったりします)、単語のカテゴリを指定するだけで、モデルがどの単語をブーストすべきか理解できるようになります。

<text>ブーストする単語:[オーストラリアの都市、食べ物の名前、テレビ番組]</text><|start|> 

いまの時点では、これはほとんどの ASR モデルがサポートしているはずだと思ったのですが、どうやら誰もしていないようです。

これが一般的な機能になっていないのには理由があるのでしょうか?

全文の説明へのリンク:

https://ketsuilabs.io/blog/listen-head

submitted by /u/kwazar90
[link] [comments]