SemEval-2026 Task 8におけるAILS-NTUA: マルチターンRAG会話の評価
arXiv cs.CL / 2026/3/12
📰 ニュースModels & Research
要点
- 本論文は、SemEval-2026 Task 8 (MTRAGEval) 向けのAILS-NTUAシステムを紹介し、三つのサブタスク(パッセージ検索(A)、参照に基づく応答生成(B)、およびエンドツーエンドRAG(C))をすべて扱います。
- 単一のコーパス整列スパースリトリーバに対して5つの補完的なLLMベースのクエリ改変を適用し、分散を意識したネスト型 Reciprocal Rank Fusion によって融合する「クエリ多様性 over リトリーバ多様性」戦略を提案します。
- 根拠生成を証拠スパン抽出、デュアル候補ドラフト、校正済み複数審査選択へと分解する多段生成パイプラインを採用します。
- 実証的には、Task Aで1位(nDCG@5: 0.5776、最強のベースラインより+20.5%)、Task Bで2位(HM: 0.7698)を獲得し、検索のカバレッジより回答可能性のキャリブレーションがエンドツーエンド性能の主要ボトルネックであることを示します。
本文: arXiv:2603.10524v1 アナウンス種別: new
Abstract: SemEval-2026 Task 8 (MTRAGEval) 向けのAILS-NTUAシステムを提示します。私たちは、マルチターンの検索付き生成(Retrieval-Augmented Generation, RAG)の3つのサブタスク、パッセージ検索(A)、参照に基づく応答生成(B)、およびエンドツーエンドRAG(C)に対応します。私たちの統一アーキテクチャは、次の2つの原則に基づいています:(i)単一のコーパス整列スパースリトリーバに対して5つの補完的なLLMベースのクエリ改変を発行し、分散を意識したネスト型 Reciprocal Rank Fusion によって統合する「クエリ多様性 over リトリーバ多様性」戦略;および(ii)根拠生成を証拠スパン抽出、デュアル候補ドラフト、校正済み複数審査による選択へと分解する多段生成パイプラインを採用しています。私たちのシステムはTask Aで1位(nDCG@5: 0.5776、最強のベースラインより+20.5%)、Task Bで2位(HM: 0.7698)を獲得しました。実証分析は、整列されたリトリーバー上のクエリ多様性が、異種リトリーバーのエンセンブリングよりも優れていること、そしてエンドツーエンドの性能の主なボトルネックは検索カバレッジではなく回答可能性のキャリブレーションであることを示しています。
関連記事
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築
Reddit r/MachineLearning
DuckLLM 1.0 — 私の初めてのモデルを紹介します!
Reddit r/LocalLLaMA
FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。
Reddit r/LocalLLaMA
高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]
Reddit r/MachineLearning