AI Navigate

SemEval-2026 Task 8におけるAILS-NTUA: マルチターンRAG会話の評価

arXiv cs.CL / 2026/3/12

📰 ニュースModels & Research

要点

  • 本論文は、SemEval-2026 Task 8 (MTRAGEval) 向けのAILS-NTUAシステムを紹介し、三つのサブタスク(パッセージ検索(A)、参照に基づく応答生成(B)、およびエンドツーエンドRAG(C))をすべて扱います。
  • 単一のコーパス整列スパースリトリーバに対して5つの補完的なLLMベースのクエリ改変を適用し、分散を意識したネスト型 Reciprocal Rank Fusion によって融合する「クエリ多様性 over リトリーバ多様性」戦略を提案します。
  • 根拠生成を証拠スパン抽出、デュアル候補ドラフト、校正済み複数審査選択へと分解する多段生成パイプラインを採用します。
  • 実証的には、Task Aで1位(nDCG@5: 0.5776、最強のベースラインより+20.5%)、Task Bで2位(HM: 0.7698)を獲得し、検索のカバレッジより回答可能性のキャリブレーションがエンドツーエンド性能の主要ボトルネックであることを示します。
本文: arXiv:2603.10524v1 アナウンス種別: new Abstract: SemEval-2026 Task 8 (MTRAGEval) 向けのAILS-NTUAシステムを提示します。私たちは、マルチターンの検索付き生成(Retrieval-Augmented Generation, RAG)の3つのサブタスク、パッセージ検索(A)、参照に基づく応答生成(B)、およびエンドツーエンドRAG(C)に対応します。私たちの統一アーキテクチャは、次の2つの原則に基づいています:(i)単一のコーパス整列スパースリトリーバに対して5つの補完的なLLMベースのクエリ改変を発行し、分散を意識したネスト型 Reciprocal Rank Fusion によって統合する「クエリ多様性 over リトリーバ多様性」戦略;および(ii)根拠生成を証拠スパン抽出、デュアル候補ドラフト、校正済み複数審査による選択へと分解する多段生成パイプラインを採用しています。私たちのシステムはTask Aで1位(nDCG@5: 0.5776、最強のベースラインより+20.5%)、Task Bで2位(HM: 0.7698)を獲得しました。実証分析は、整列されたリトリーバー上のクエリ多様性が、異種リトリーバーのエンセンブリングよりも優れていること、そしてエンドツーエンドの性能の主なボトルネックは検索カバレッジではなく回答可能性のキャリブレーションであることを示しています。