対話内での推論はLLMsにとって難しくなる

arXiv cs.CL / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文はBOULDERを導入し、算術・空間・時間的推論を要する8つの旅行関連タスクからなる動的ベンチマークを提案し、統制された比較のため孤立型と対話型の両方のバリアントを提示する。
8つの大規模言語モデル（LLMs）において、孤立型推論と対話型推論の間に実質的かつ一貫した性能ギャップが報告され、現実世界の対話条件下での推論の難しさを浮き彫りにしている。
このギャップは主に対話の多ターン性に起因しており、タスク指向の対話における役割条件付けとツール使用要件が追加の影響を与えている。
著者らは、現実的なインタラクティブシナリオでのLLM推論を評価することが、実用的な能力と制限を正確に評価するために必要だと主張している。

要旨: 大規模言語モデル（LLMs）は多くの推論ベンチマークで高い性能を発揮しますが、これらの評価は通常、タスク指向対話（TOD）における実世界の使用状況とは異なる独立したタスクに焦点を当てています。この設定では、LLMsはテキストを生成しながら、本質的に推論を行い、役割・形式・スタイルに関する指示を遵守しなければなりません。この不一致は、ベンチマークの性能がTOD設定におけるモデルの推論の頑健性を正確に反映しているかどうかについて懸念を生じさせます。私たちは、TOD内で推論タスクをフレーミングすることがLLMの性能にどのような影響を与えるかを調査するため、算術・空間・時間推論を要する、常識的側面と形式的側面の両方を含む8つの旅行関連タスクをカバーする新しい動的ベンチマークBOULDERを導入します。各問題は独立形式と対話形式の両方で提示され、データの混入を抑制しつつ、統制された比較を可能にします。 8つのLLMを用いた実験は、孤立設定と対話設定の間に大きく一貫した性能ギャップがあることを示しています。アブレーション実験と定性的分析を通じて、このギャップは主に対話の多ターン性によって生じ、役割条件付けとツール使用要件の追加効果が影響していることを示します。我々の結果は、現実的なインタラクティブなシナリオにおけるLLM推論を評価する必要性を強調します。

返却形式: {"translated": "翻訳されたHTML"}