私はフル二重の音声モデルの「聞き取り」部分に取り組んでいたのですが、ASR(自動音声認識)のプロンプトがとても有用になり得ることに気づきました。
Deepgram では単語のブーストが可能ですが、現実のアプリケーションではうまく機能しません。
ほかに欠けているのは、ASRモデルへの文脈として、会話履歴全体を入力することです。これは音声エージェントにとって非常に有用になり得ます。
TLDR、テスト中に、モデルが次のようなテキストによるプロンプトに対してうまく微調整できることに気づきました:
<text>ライセンスプレートを期待してください(3文字、3数字)。たとえば ABC123。</text><|start|> または
<text>人の名前を期待してください。姓を含む場合もあります。たとえば John Doe。</text><|start|> ブーストしたい特定の単語をすべて指定する代わりに(場合によってはそれが現実的でなかったり、コンテキストウィンドウが足りなくなったりします)、単語のカテゴリを指定するだけで、モデルがどの単語をブーストすべきか理解できるようになります。
<text>ブーストする単語:[オーストラリアの都市、食べ物の名前、テレビ番組]</text><|start|> いまの時点では、これはほとんどの ASR モデルがサポートしているはずだと思ったのですが、どうやら誰もしていないようです。
これが一般的な機能になっていないのには理由があるのでしょうか?
全文の説明へのリンク:
[link] [comments]




