文脈推論が機能しないとき: 対話的指示追従における取り消し可能性

arXiv cs.CL / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Build What I Mean (BWIM) を紹介する。これは、ガイド付き指示追従における文脈的意味の構築を評価する対話型ベンチマークである。
BWIM は、二人の話者を想定した心理言語学的パラダイムを拡張し、低い伝達コストの下で文脈的推論と字義的遵守を比較する。
最先端の大規模言語モデル（LLM）の評価は、判断と行動の間に乖離があることを示している。モデルは自信判断において話者の信頼性の欠如を検知できるが、それを一貫して明確化を求める行動へと活用できていない。
結果として、モデルはパートナーを考慮しない過剰な明確化や、不確実性の下で質問を避ける推測といった、行動可能性の乏しい戦略を示し、理解と実行可能な振る舞いの間にギャップがあることを浮き彫りにしている。

要約: 私たちは、文字通りの解釈と文脈的推論の分離を、協働ブロック構築タスクの中で調査します。そこでは、建設者が文脈的推論を用いて不十分に指定された指示を解決しなければなりません。既存の二者話者の心理言語学的パラダイムに基づき――それは、語用論的に協力的な話者と、文字通りのみ信頼できる話者を対比させる――私たちは Build What I Mean (BWIM)、文脈的意味構築のためのインタラクティブなベンチマークを導入します。BWIM では、モデルは文脈的推論を行うか、または小さなコミュニケーションコストで明確化を要求することによって、曖昧さを解決しなければなりません。最先端の複数のLLMを評価する中で、判断と行動の間に解離があることが分かりました。すなわち、モデルは明示的な信頼度評価で話者の信頼性の欠如を検知しますが、この情報を活用して効率的な明確化行動を導くことには失敗します。代わりに、パートナーを無視した過度の明確化や、不確実性の下での質問を避ける推測といった、最適でない戦略を観察します。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

文脈推論が機能しないとき: 対話的指示追従における取り消し可能性

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer