AI Navigate

RECOVER: 証拠に基づく回復のための仮説バリアントをエージェント主導でオーケストレーションすることによる堅牢なエンティティ修正

arXiv cs.CL / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • RECOVERは、複数のASR仮説を用い、関連するエンティティを取得し、制約の下でLLMベースの修正を適用してエンティティ誤りを低減する、エージェント的修正フレームワークを提示する。
  • このフレームワークは、修正の証拠を強化するために、いくつかの仮説戦略(1-Best、Entity-Aware Select、ROVER Ensemble、LLM-Select)を用いる。
  • 5つの多様なデータセットで評価され、エンティティ誤りの相対的低減(E-WER)を8〜46%、リコールを最大で22パーセントポイント改善しつつ、全体的なWERは維持された。
  • LLM-Selectは、エンティティ修正の改善とWERの維持のバランスを取ることで、全体的なパフォーマンスで最良の結果をもたらした。

要約:自動音声認識(ASR)における固有表現認識は、稀でドメイン特有の用語に対して困難です。金融、医療、航空管制といった分野では、これらの誤りはコストが高くつきます。エンティティがASR出力に全く含まれていない場合、ASR後の訂正は難しくなります。これに対処するため、ツールを使用するエージェントとして機能するエージェント型訂正フレームワークRECOVERを導入します。これはASRからの複数の仮説を根拠として活用し、関連するエンティティを取得し、制約の下でLLM(大規模言語モデル)による訂正を適用します。仮説は、1-Best、Entity-Aware Select、Recognizer Output Voting Error Reduction(ROVER)Ensemble、およびLLM-Selectという異なる戦略を用いて使用されます。5つの多様なデータセットで評価され、エンティティ句のワードエラー率(E-WER)を相対的に8–46%低減し、再現率を最大22ポイント向上させます。LLM-Selectは、全体のWERを維持しつつ、エンティティ訂正において最も優れた総合性能を達成します。

返却形式: {"translated": "翻訳されたHTML"}