要約:自動音声認識(ASR)における固有表現認識は、稀でドメイン特有の用語に対して困難です。金融、医療、航空管制といった分野では、これらの誤りはコストが高くつきます。エンティティがASR出力に全く含まれていない場合、ASR後の訂正は難しくなります。これに対処するため、ツールを使用するエージェントとして機能するエージェント型訂正フレームワークRECOVERを導入します。これはASRからの複数の仮説を根拠として活用し、関連するエンティティを取得し、制約の下でLLM(大規模言語モデル)による訂正を適用します。仮説は、1-Best、Entity-Aware Select、Recognizer Output Voting Error Reduction(ROVER)Ensemble、およびLLM-Selectという異なる戦略を用いて使用されます。5つの多様なデータセットで評価され、エンティティ句のワードエラー率(E-WER)を相対的に8–46%低減し、再現率を最大22ポイント向上させます。LLM-Selectは、全体のWERを維持しつつ、エンティティ訂正において最も優れた総合性能を達成します。
返却形式: {"translated": "翻訳されたHTML"}