ItinBench: 大規模言語モデルを用いた複数の認知次元にわたる計画のベンチマーク

arXiv cs.AI / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ItinBench は、空間推論タスク(特に経路最適化)と旅程計画を組み合わせたベンチマークを導入し、複数の認知的次元にわたって LLM を評価します。
  • Llama 3.1 8B、Mistral Large、Gemini 1.5 Pro、GPT ファミリーを含む複数の LLM を評価し、同時に進行する認知タスク間で高い水準の安定した性能を維持することが難しいことを発見しました。
  • 人間レベルの異なる認知領域のタスクを組み込むことにより、ItinBench は現実世界の課題をよりよく反映する、より包括的な推論のテストベッドを構築するための新たな洞察を提供します。
  • このプロジェクトは、再現性と今後の研究を支援するために、コードとデータセットを https://ethanwtl.github.io/IBweb/ で提供します。

要旨: 高度な認知能力を備えた大規模言語モデル(LLMs)は、さまざまな推論および計画タスクのエージェントとして台頭しています。従来の評価は、管理された環境内の特定の推論や計画の問いに焦点を当てることが多いです。最近の研究では、旅程計画を、さまざまな言語推論タスクを実世界の文脈に統合する手段として検討しています。ただし、推論タスクは言語推論だけにとどまらず、LLMs の包括的な評価には、複数の認知ドメインからのタスクを組み込んだテストベッドが必要です。このギャップに対処するため、ItinBench を導入します。これは、従来の言語推論タスクを維持しつつ、空間推論の一つのタスク、すなわち経路最適化を旅程計画に組み込んだベンチマークです。 ItinBench は、Llama 3.1 8B、Mistral Large、Gemini 1.5 Pro、GPT ファミリーを含む、さまざまなタスクを同時に評価します。 私たちの所見では、複数の認知次元を同時に扱う場合、LLMs は高いかつ一貫したパフォーマンスを維持するのに苦労することが分かりました。 異なる人間レベルの認知ドメインからのタスクを取り入れることにより、ItinBench は現実世界の課題をよりよく反映する、より包括的な推論テストベッドを構築するための新しい洞察を提供します。 コードとデータセット: https://ethanwtl.github.io/IBweb/