AI Navigate

TopoBench: 難易度の高いトポロジ的推論におけるLLMのベンチマーク

arXiv cs.AI / 2026/3/13

📰 ニュースModels & Research

要点

  • TopoBenchは、難解なトポロジー推論タスクを評価するため、3段階の難易度にまたがる6つのパズルファミリーからなるベンチマークを導入します。
  • 研究では、先端モデルでも難易度の高い事例の4分の1未満しか解けず、2つのファミリーはほぼ未解決であることが分かり、この推論領域の現状の限界を浮き彫りにしています。
  • 著者らは、思考過程の連鎖を750件のエラー分類として注釈付けし、4つの原因となる故障モードを特定し、各エラータイプを模擬する介入で検証します。
  • 介入により、早期の確定と制約忘却のような特定の誤りパターンが性能に直接影響する一方、繰り返しの推論は探索の無害な副産物であることが示され、空間表現からの制約抽出のボトルネックを示唆しています。
  • プロンプト案内、セル整列グリッド表現、ツールベースの制約検査を含む緩和戦略を検討し、コードとデータはGitHubに公開されています。
TopoBenchは、難解なグリッド上のトポロジー的パズルを解くには、連結性、ループ閉鎖、領域対称性などのグローバルな空間的不変量を推論する必要があり、最も強力な大規模言語モデル(LLMs)にとっても依然として挑戦的であることを示しています。制御された設定でこれらの能力を研究するために、TopoBenchを導入します。TopoBenchは3つの難易度レベルにまたがる6つのパズルファミリーのベンチマークです。私たちはTopoBench上で強力な推論能力を持つLLMを評価し、最前線のモデルでさえ難易度の高い事例の4分の1未満しか解けず、2つのファミリーはほぼ未解決であることを発見しました。これらの失敗が推論の限界に起因するものか、空間的制約を抽出して維持する難しさに起因するものかを調べるため、750件の思考過程の連鎖をエラー分類で注釈付けし、4つの候補となる因果的故障モードを浮かび上がらせ、それぞれのエラータイプを模擬するターゲット介入で検証します。これらの介入は、早期の確定と制約忘却のような特定の誤りパターンがパズルを解く能力に直接影響を与える一方、繰り返しの推論は探索の無害な副産物であることを示しました。最後に、プロンプト案内、セル整列グリッド表現、ツールベースの制約検査を含む緩和戦略を検討し、空間表現から制約を抽出することにボトルネックがあるのは推論そのものではなく、空間表現からの制約抽出であることを見出しました。コードとデータは github.com/mayug/topobench-benchmark で利用可能です。