これはただのファンタジー? 言語モデルの表現が出来事の妥当性に対する人間の判断を反映する

arXiv cs.CL / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、多くのタスクで必要となる文のモダリティ(可能・不可能・まったく無意味など)の区別を、言語モデルがどれだけ正確に行えるかを検証します。
  • 複数の言語モデルの中に「モダル差ベクトル」(線形表現)が存在し、それが先行研究よりも高い信頼性でモダルカテゴリを識別できることを見出します。
  • これらのモダル差ベクトルは、モデルが学習ステップ、層数、パラメータ数の増加によって能力が高まるにつれて、一定の順序で現れることが示されます。
  • 活性(activation)空間での特定の方向が、出来事の妥当性に関する人間のきめ細かな判断をモデル化できることが示され、人の解釈可能な特徴の使い方との対応も検討されます。
  • 機械論的解釈可能性の手法により、言語モデルのモダルカテゴリ化に関する新たな洞察を提示し、さらに人間のモダリティ理解の説明に役立つ可能性を示します。

要旨: 言語モデル(LM)は、質問応答から空想的な物語の執筆に至るまで、幅広いタスクに用いられます。これらのタスクを確実に遂行するためには、LMは文のモーダル(様相)カテゴリを判別できなければなりません(すなわち、それが可能なことを述べているのか、不可能なことを述べているのか、完全に筋の通らないことを述べているのか、などを指します)。しかし近年の研究では、LMがモーダリティに基づいて文を分類できる能力が疑問視されています(Michaelov et al., 2025; Kauf et al., 2023)。本研究では、多様なLMの中で、あるいはモーダル差ベクトル(modal difference vectors)の中で、モーダルカテゴリを識別する線形表現を特定します。モーダル差ベクトルの分析から、LMは先行研究で報告されていたよりも信頼性の高いモーダル分類の判断にアクセスできることが明らかになります。さらに、モデルがより有能になっていくにつれて(すなわち、学習ステップ、層、パラメータ数を通じて)モーダル差ベクトルが一貫した順序で出現することを見出します。特に、LMの活性化の中で同定されたモーダル差ベクトルは、きめ細かな人間の分類行動をモデル化するために用いることができます。これは、人間の参加者がモーダルカテゴリをどのように区別しているのかについての新たな見方を提供する可能性があります。そこで本研究では、モーダル差ベクトルに沿った射影を、解釈可能な特徴に対する人間の参加者の評価と相関させることで、この点を探究します。まとめると、本研究では機械論的解釈可能性(mechanistic interpretability)の手法を用いて、LMのモーダル分類に関する新たな洞察を導出します。これにより、人間におけるモーダル分類の理解に資する可能性があります。