権限に支配された知識における制御型リトリーバル:権限ガバナンス付き知識のための欠けたリトリーブ目的

arXiv cs.CL / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文は、法律・医薬品規制・ソフトウェアセキュリティなどの領域で、新しい文書が権限により以前の文書を無効化できるにもかかわらず意味的には離れているケースを扱うためのControlling Authority Retrieval(CAR)を提案している。
  • CARを、意味的アンカー集合の「有効な権限フロンティア」を回収する問題として定式化し、argmax_d s(q,d) のような従来型の検索目的とは区別している。
  • 主要結果として、TCA(R,q)=1 を満たすための必要十分条件(定理4)を提示し、フロンティア包含と「無視されるスーパーセーダーがないこと」という条件に基づいている。
  • さらに、任意のスコープ付きアルゴリズムに対してTCA@k が phi(q)×R_anchor(q) により上限づけられることを示す(命題2)。敵対的な並べ替えによる議論で証明されている。
  • 複数の実データ(セキュリティ助言、最高裁の覆し関係、FDAの医薬品記録)とGPT-4o-miniでの下流実験により、二段階のCAR的アプローチが「パッチされていない」という誤りのような、スーパーセードされた主張を大幅に減らすことを示し、データセットとコードも公開している。

Abstract

法によるもの、薬の規制、ソフトウェアセキュリティのように、知識が形式的な権威のもとで蓄積されるあらゆる領域において、後続の文書は、それに対して意味的に距離があるままでも、形式的に先行文書を無効化できます。本研究ではこれを Controlling Authority Retrieval(CAR)として形式化します。すなわち、意味的アンカー集合の権威閉包のアクティブなフロンティア front(cl(A_k(q))) を回復することです。これは argmax_d s(q,d) とは異なる数学的問題です。2つの中核的結果は次のとおりです。定理4(CAR-正しさの特徴づけ)は、取得集合 R に対して TCA(R,q)=1 となるための必要十分条件を与えます。すなわち、フロンティア包含と、無視された上書き(superseder)なし、という条件です。これらは、R がどのように生成されたかには依存しません。命題2(スコープ識別可能性の上限)は、phi(q) をハードな最悪ケースの上限として確立します。任意のスコープ付きアルゴリズムについて、TCA@k <= phi(q) * R_anchor(q) が成り立ちます。これは、敵対的な順列(permutation)に関する議論によって証明されます。証明された構造は、現実世界の3つの独立したコーパスによって検証されます。セキュリティ勧告(Dense TCA@5=0.270、two-stage 0.975)、SCOTUS による上書き(Dense=0.172、two-stage 0.926)、FDA の医薬品記録(Dense=0.064、two-stage 0.774)です。GPT-4o-mini の実験は、下流コストも示します。Dense RAG は、パッチが存在する 39% のクエリに対して明示的に「未パッチ」だと主張します。Two-Stage はこれを 16% にまで削減します。4つのベンチマークデータセット、ドメインアダプタ、そして単一コマンドのスコーラが https://github.com/andremir/car-retrieval で公開されます。