AUDITA:音声QAにおける人間とAIのスキルを監査する新しいデータセット

arXiv cs.CL / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 人間とAIの能力差を「音声QAにおける本物の推論」に基づいて監査することを目的にした、新しい大規模ベンチマークAUDITAが提案されています。
  • データセットは、人間が作成した実世界の音声に基づくトリビア形式の設問を用い、難しいディストラクタや長時間的な依存関係で、孤立したテキストや音声手掛かりだけでは答えられないように設計されています。
  • 人間の平均正答率は32.13%である一方、最先端の音声QAモデルは平均8.86%未満と低く、頑健な音声推論が難しいことが示されています。
  • Item Response Theory(IRT)を用いて潜在的な熟達度や設問の難易度を推定し、モデルとデータセット双方の体系的な弱点を明らかにしています。
  • メタデータやキャプションによる回避(抜け道)やデータセット固有のバイアスの影響を抑えつつ、音声推論をより厳密に評価する枠組みとして位置付けられています。