レジメ条件付き検索:2ホップQAのための理論と転用可能なルータ

arXiv cs.CL / 2026/4/13

💬 オピニオン

要点

  • 本論文は、2ホップQAの検索を、2つの異なるレジメとして形式化する。すなわち、質問内で2ホップ目のエンティティが明示的に名前として挙げられている場合はQ優勢、ブリッジ文(bridge passage)でのみそれが示唆されている場合はB優勢である。そして、ルーティングのマージンと性能を結び付ける理論的性質を証明する。

Abstract

2ホップQAの検索は、2ホップ目のエンティティが質問(Q)内で明示的に名前で与えられているか(Q優勢)どうか、またはブリッジの本文(B)内にのみ現れるか(B優勢)によって、クエリを2つのレジームに分割します。私たちはこの分割を3つの定理で形式化します。(T1)クエリごとのAUCは余弦分離マージンの単調な関数であり、8つのタイプエンコーダのペアのうち6つでR^2 >= 0.90を満たします。(T2)レジームは2つの表層テキスト述語によって特徴づけられ、P1がルーティングを決定し、P2がB優勢ケースを条件づけます。この性質は3つのエンコーダと3つのデータセットにまたがって成立します。(T3)ブリッジの優位性は、エンティティ名だけではなく、関係を担う文を必要とし、これを除去すると8.6-14.1 ppの性能低下が生じます(p < 0.001)。この理論に基づき、述語定義から直接導出した5つのテキスト特徴を用いる軽量な二値ルータであるRegimeRouterを提案します。RegimeRouterは、質問のみと、質問+関係文に基づく検索のどちらを選択するかを決めます。2WikiMultiHopQA(n = 881、5-foldでcross-fitted)で学習し、MuSiQueとHotpotQAにゼロショット適用したところ、RegimeRouterはそれぞれ+5.6 pp(p < 0.001)、+5.3 pp(p = 0.002)、+1.1 pp(有意でない、no-regret)のR@5改善を達成します。artifact-drivenで動作します。