AI Navigate

大規模言語モデルにおける意図理解の測定

arXiv cs.CL / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMsがテキストから次のトークンを予測するように訓練されており、潜在的なユーザー意図を推測することを目的としていないため、意図は表層的手掛かりへの依存のため難しいターゲットになる。
  • 意図の違いを主に反映しているかを評価するため、モデル出力の分散をユーザー意図、ユーザーの表現力、そしてモデルの不確実性の3つの成分に分解する形式的枠組みを導入している。
  • 5つのLLaMAおよびGemmaモデルを対象に、より大きなモデルほど出力分散のより大きな割合を意図に割り当てる傾向が見られ、意図理解の強さを示唆しているものの、改善は不均一で、サイズの増大とともに効果は控えめである。
  • 著者は、精度のみのベンチマークを超えて、意味的診断へと移行し、モデルがユーザーが何を望んでいるかを理解しているかを直接評価すべきだと主張している。
要旨:人々は大規模言語モデル(LLMs)とのやりとりを、出力が彼らの望むものと一致する場合に成功と判断する。とはいえ、LLMsは基盤となる意図を推測することではなく、テキスト入力だけから次のトークンを予測するように訓練されている。書かれた言語は意図の不完全な代理指標であり、語句の表現と望ましい結果との間の相関は訓練データで崩れることがあるため、表層的な手掛かりに過度に敏感なモデルは意味的に同等のプロンプトに対して一貫性のない応答を示す可能性がある。これにより、堅牢性と一般化が重要な高リスクな設定で、LLMsがユーザーの意図を信頼性高く推測できるかを評価することが不可欠になる。我々は、LLMsにおける意図理解を評価するための形式的枠組みを導入する。それは、意味的に等価なプロンプト間で一貫した出力を生み出しつつ、異なる意図を持つプロンプトを区別できるかどうかを判断する枠組みである。われわれの評価手法は、モデルの応答を3つの成分に分解する分散分解に基づく。すなわち、ユーザーの意図による変動、ユーザーの発話表現による変動、そしてモデルの不確実性である。ユーザーが何を望んでいるかを理解し、テキストの手掛かりに過度に敏感でないモデルは、出力分散の大半を意図の差異に帰属させ、発話スタイルにはあまり帰属させないはずである。本枠組みを多様な領域に適用すると、我々が評価した5つのLLaMAおよびGemmaモデルの中では、より大きなモデルが通常、意図に対する分散の割合を高く割り当てる傾向があり、意図の理解がより強いことを示している。ただし、サイズの増加に伴う利得は不均一であり、多くの場合控えめである。これらの結果は、精度のみのベンチマークを超え、モデルがユーザーの意図を理解しているかを直接評価する意味的診断へと移行するべきだ、という示唆を与える。