要約: 私たちは、文字通りの解釈と文脈的推論の分離を、協働ブロック構築タスクの中で調査します。そこでは、建設者が文脈的推論を用いて不十分に指定された指示を解決しなければなりません。既存の二者話者の心理言語学的パラダイムに基づき――それは、語用論的に協力的な話者と、文字通りのみ信頼できる話者を対比させる――私たちは Build What I Mean (BWIM)、文脈的意味構築のためのインタラクティブなベンチマークを導入します。BWIM では、モデルは文脈的推論を行うか、または小さなコミュニケーションコストで明確化を要求することによって、曖昧さを解決しなければなりません。最先端の複数のLLMを評価する中で、判断と行動の間に解離があることが分かりました。すなわち、モデルは明示的な信頼度評価で話者の信頼性の欠如を検知しますが、この情報を活用して効率的な明確化行動を導くことには失敗します。代わりに、パートナーを無視した過度の明確化や、不確実性の下での質問を避ける推測といった、最適でない戦略を観察します。
文脈推論が機能しないとき: 対話的指示追従における取り消し可能性
arXiv cs.CL / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Build What I Mean (BWIM) を紹介する。これは、ガイド付き指示追従における文脈的意味の構築を評価する対話型ベンチマークである。
- BWIM は、二人の話者を想定した心理言語学的パラダイムを拡張し、低い伝達コストの下で文脈的推論と字義的遵守を比較する。
- 最先端の大規模言語モデル(LLM)の評価は、判断と行動の間に乖離があることを示している。モデルは自信判断において話者の信頼性の欠如を検知できるが、それを一貫して明確化を求める行動へと活用できていない。
- 結果として、モデルはパートナーを考慮しない過剰な明確化や、不確実性の下で質問を避ける推測といった、行動可能性の乏しい戦略を示し、理解と実行可能な振る舞いの間にギャップがあることを浮き彫りにしている。