要旨: 大規模言語モデル(LLMs)は多くの推論ベンチマークで高い性能を発揮しますが、これらの評価は通常、タスク指向対話(TOD)における実世界の使用状況とは異なる独立したタスクに焦点を当てています。 この設定では、LLMsはテキストを生成しながら、本質的に推論を行い、役割・形式・スタイルに関する指示を遵守しなければなりません。 この不一致は、ベンチマークの性能がTOD設定におけるモデルの推論の頑健性を正確に反映しているかどうかについて懸念を生じさせます。 私たちは、TOD内で推論タスクをフレーミングすることがLLMの性能にどのような影響を与えるかを調査するため、算術・空間・時間推論を要する、常識的側面と形式的側面の両方を含む8つの旅行関連タスクをカバーする新しい動的ベンチマークBOULDERを導入します。 各問題は独立形式と対話形式の両方で提示され、データの混入を抑制しつつ、統制された比較を可能にします。 8つのLLMを用いた実験は、孤立設定と対話設定の間に大きく一貫した性能ギャップがあることを示しています。 アブレーション実験と定性的分析を通じて、このギャップは主に対話の多ターン性によって生じ、役割条件付けとツール使用要件の追加効果が影響していることを示します。 我々の結果は、現実的なインタラクティブなシナリオにおけるLLM推論を評価する必要性を強調します。
返却形式: {"translated": "翻訳されたHTML"}




