SemEval-2026 Task 8「多ターンRAG会話のための階層的親子リトリーバル」におけるH-RAG

arXiv cs.CL / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、SemEval-2026 Task 8（MTRAGEval）に提出したH-RAGを紹介し、検索品質（Task A）と、根拠付きの多ターンRAG生成（Task C）の両方に対応します。
H-RAGは、文単位で重複する「子」チャンクで細かな検索を行いながら、「親」として全文書を保持して、生成時に首尾一貫した文脈を再構成する設計です。
検索段階ではハイブリッドな密・疎検索にチューニング可能な重み付けを加え、さらに埋め込み類似度による子チャンクの再スコアリングを行ったうえで、取得根拠を親レベルで集約して言語モデルに渡します。
結果として、Task AでnDCG@5が0.4271、Task Cで調和平均が0.3241と報告されており、多ターンRAGでは検索設定と親レベルでの証拠集約が重要であることが示唆されます。

要旨: SemEval-2026 タスク8（MTRAGEval）への提出として、H-RAG を提案します。本手法は、タスクA（Retrieval）とタスクC（Retrieved Passages を用いた生成）の両方に対応しています。タスクAは単独の検索品質を評価し、タスクCはマルチターンの対話設定における、検索拡張生成（RAG）のエンドツーエンド性能を評価します。ここでは、正確な回答生成と、検索された証拠に対する忠実な根拠づけの両方が求められます。我々のアプローチは、階層型の親子（parent-child）RAG パイプラインを実装し、生成時における親レベルの文脈再構築から、きめ細かな子レベルの検索を分離します。文書は重なりのある文ベースの子チャンクに分割されますが、一方で親ユニットとして完全な文書は保持され、首尾一貫した文脈を提供します。検索は、ハイブリッドな密（dense）-疎（sparse）探索、調整可能な重み付け、そして子チャンクに対する埋め込みベースの類似度による再スコアリングを組み合わせます。検索された証拠は親レベルで集約され、指示チューニング済みの言語モデルに渡されて応答が生成されます。H-RAG は、タスクAで nDCG@5=0.4271、タスクCで調和平均スコア=0.3241（RB_agg: 0.2488, RL_F: 0.2703, RB_llm: 0.6508）を達成しており、マルチターンRAG性能における検索設定と親レベル集約の重要性を裏付けています。

LLMのためのとても基本的なリトマステスト

Reddit r/LocalLLaMA

Power PlatformにおけるALM：ADO＋GitHubで「両方の良いところ」を取る

Dev.to

実験：RAGライク構成でChatGPT 5.4の出力は反復利用で変わるのか？

Dev.to

Topify.aiが上位表示すべき「GEO」コンテンツのトピック案（検索ボリューム高・競争低）を12件挙げる

Dev.to

「覚えたルール」がバグにも都合よく当てはまるとき——エージェントワークフローのメタトラップ

Dev.to

SemEval-2026 Task 8「多ターンRAG会話のための階層的親子リトリーバル」におけるH-RAG

要点

関連記事

LLMのためのとても基本的なリトマステスト

Power PlatformにおけるALM：ADO＋GitHubで「両方の良いところ」を取る

実験：RAGライク構成でChatGPT 5.4の出力は反復利用で変わるのか？

Topify.aiが上位表示すべき「GEO」コンテンツのトピック案（検索ボリューム高・競争低）を12件挙げる

「覚えたルール」がバグにも都合よく当てはまるとき——エージェントワークフローのメタトラップ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer