RELでLLMの関係推論を評価する

arXiv cs.AI / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在のLLMによる関係推論の評価が、高階の関係的バインディングの難しさを混同していると主張し、その要因を分離する必要性を動機づけている。
  • それに基づき、Relational Complexity(RC)を導入する。これは、関係を適用するために独立してバインドする必要がある「エンティティ/オペランド」の最小数として定義され、他の変数を制御しつつ推論の難しさを変化させるための原理的な方法である。
  • RCを踏まえて著者らは、代数・化学・生物の各領域をカバーする生成型ベンチマーク枠組みであるRELを提案し、各領域の中でRCを体系的に変化させる。
  • 最先端のLLMに対する実験では、エンティティの総数を固定している場合でも、RCが増加するにつれて性能が一貫してかつ単調に低下することが示されており、これは高階の関係的バインディングに固有の弱点を示唆している。
  • 失敗は、より多くのテスト時計算やインコンテキスト学習でも解消されず、推論の深さや例の提示ではなく、関係的バインディングのアリティに起因する構造的な制約であることが示される。
  • 本研究は、高階の推論におけるモデルの限界を適切に測定できるように、関係推論ベンチマークを関係的複雑性を取り入れる形で再考することを推奨している。