デュアルレイヤーのガイダンスを備えた自己記述型構造化データ:大規模LLMの知識ナビゲーションにおける高精度検索のための、軽量なRAG代替案
arXiv cs.CL / 2026/4/23
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、LLMが長いコンテキスト内で中央付近の情報に注意を向けにくくなる「Lost-in-the-Middle(中央喪失)」効果が、大規模な構造化知識ベースの文脈埋め込み型の知識検索を制約し得る点を扱います。
- 自己記述型構造化検索(SDSR)として、構造化データファイルに人手で作成したナビゲーション用メタデータを“プリマシー位置”(先頭側)に埋め込み、LLMの注意バイアスを逆に活用する軽量手法を提案します。
- SDSRは、ファイル内メタデータとシステムプロンプト中の明示的なルーティング規則を組み合わせる「デュアルレイヤー・ガイダンス」により、精密なルーティング(検索)精度を高めます。
- 36カテゴリから119カテゴリへ拡張した190スキルのライブラリを用いた4ラウンドのベンチマーク(敵対的ダストラクタ注入あり)で、ファイル内+プロンプトの両方を使う条件はガイダンスなしのベースラインより大幅に改善し、一次ルーティング精度は100%(20/20、119カテゴリ)を達成します。
- さらにSDSRを半構造化コーパスへ拡張し、相互参照のエンコードによって文書構造が回復可能な領域ではベクトルDBなしで運用できる可能性を示します。




