TopoBench: 難易度の高いトポロジ的推論におけるLLMのベンチマーク

arXiv cs.AI / 2026/3/13

📰 ニュースModels & Research

共有:

要点

TopoBenchは、難解なトポロジー推論タスクを評価するため、3段階の難易度にまたがる6つのパズルファミリーからなるベンチマークを導入します。
研究では、先端モデルでも難易度の高い事例の4分の1未満しか解けず、2つのファミリーはほぼ未解決であることが分かり、この推論領域の現状の限界を浮き彫りにしています。
著者らは、思考過程の連鎖を750件のエラー分類として注釈付けし、4つの原因となる故障モードを特定し、各エラータイプを模擬する介入で検証します。
介入により、早期の確定と制約忘却のような特定の誤りパターンが性能に直接影響する一方、繰り返しの推論は探索の無害な副産物であることが示され、空間表現からの制約抽出のボトルネックを示唆しています。
プロンプト案内、セル整列グリッド表現、ツールベースの制約検査を含む緩和戦略を検討し、コードとデータはGitHubに公開されています。

TopoBenchは、難解なグリッド上のトポロジー的パズルを解くには、連結性、ループ閉鎖、領域対称性などのグローバルな空間的不変量を推論する必要があり、最も強力な大規模言語モデル（LLMs）にとっても依然として挑戦的であることを示しています。制御された設定でこれらの能力を研究するために、TopoBenchを導入します。TopoBenchは3つの難易度レベルにまたがる6つのパズルファミリーのベンチマークです。私たちはTopoBench上で強力な推論能力を持つLLMを評価し、最前線のモデルでさえ難易度の高い事例の4分の1未満しか解けず、2つのファミリーはほぼ未解決であることを発見しました。これらの失敗が推論の限界に起因するものか、空間的制約を抽出して維持する難しさに起因するものかを調べるため、750件の思考過程の連鎖をエラー分類で注釈付けし、4つの候補となる因果的故障モードを浮かび上がらせ、それぞれのエラータイプを模擬するターゲット介入で検証します。これらの介入は、早期の確定と制約忘却のような特定の誤りパターンがパズルを解く能力に直接影響を与える一方、繰り返しの推論は探索の無害な副産物であることを示しました。最後に、プロンプト案内、セル整列グリッド表現、ツールベースの制約検査を含む緩和戦略を検討し、空間表現から制約を抽出することにボトルネックがあるのは推論そのものではなく、空間表現からの制約抽出であることを見出しました。コードとデータは github.com/mayug/topobench-benchmark で利用可能です。

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

MarkTechPost

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Dev.to

Tinybox - オフラインAIデバイス、1200億パラメータ

Hacker News

TopoBench: 難易度の高いトポロジ的推論におけるLLMのベンチマーク

要点

関連記事

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Tinybox - オフラインAIデバイス、1200億パラメータ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer