コード依存関係による構造に基づく知識検索を用いた多段階データ推論

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、検索拡張型LLMのアプローチがしばしば語彙・埋め込みの類似度に基づいており、多段階データ推論に実際に必要となる知識の代理としては不適切になり得ると主張する。
  • 関数呼び出し関係に基づいて、テキスト類似度だけではなく領域知識の依存グラフを構築することで、SGKR(Structure-Grounded Knowledge Retrieval)を提案する。
  • 与えられた問いに対して、SGKRは意味的な入出力タグを導出し、それらを結ぶ依存パスを見つけ、そのタスクに関連する部分グラフと、対応する関数実装を組み立てて、LLMによるコード生成のための構造化コンテキストとする。
  • 多段階データ分析のベンチマークに対する実験により、SGKRは、検索なしおよび類似度ベースの検索手法と比べて、素のLLMとコーディングエージェントのいずれにおいても解の正しさを改善することが示される。

Abstract

ドメイン固有のデータ解析タスクを解くために大規模言語モデル(LLM)を使用する際、適切な知識を選ぶことは極めて重要です。しかし、ほとんどの検索拡張型アプローチは主に語彙的または埋め込みの類似性に依存しており、しばしば、多段推論に必要なタスクに決定的な知識に対する弱い代理指標になっています。こうした多くのタスクでは、関連する知識は単にクエリに対して文字列として関連しているのではなく、実行可能なコードと、その計算が実行される依存関係構造に裏付けられています。この不一致に対処するために、関数呼び出しの依存関係によって誘導されるグラフでドメイン知識を整理する検索フレームワーク、SGKR(Structure-Grounded Knowledge Retrieval)を提案します。SGKRは、質問に対して意味的な入出力タグを抽出し、それらを結ぶ依存パスを特定して、タスクに関連するサブグラフを構築します。その後、関連する知識と対応する関数実装を、LLMベースのコード生成のための構造化コンテキストとして組み立てます。多段のデータ解析ベンチマークに対する実験では、SGKRは、バニラLLMおよびコーディングエージェントの両方において、検索なしおよび類似性ベースの検索のベースラインよりも、解の正しさを一貫して改善することが示されています。