大型言語モデル(LLMs)における形容詞-名詞の構成性の評価: 機能的観点と表象的観点
arXiv cs.AI / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 著者らは、形容詞-名詞の構成性を、プロンプトベースの機能評価と内部表象の分析という2つの補完的な方法を用いて評価する。
- 著者らは、内部で構成表象を信頼性高く構築する一方で、それをモデル間で機能的タスクの成功へ一貫して翻訳できないことを発見する。
- 結果は、性能が内部状態の性質と乖離する可能性を示唆しており、モデルの能力をより理解するためには対照的評価の必要性を浮き彫りにしている。
- 本研究は、高いタスク性能を真の構成的理解と同一視することへの慎重さを示唆し、LLM研究におけるより広範な評価戦略を促している。
要旨: 構成性は言語能力の中心とみなされている。高性能な言語システムとして、巨大言語モデル(LLMs)は構成的課題にどう対処するのか。著者らは、形容詞-名詞の構成性を、2つの補完的な設定――プロンプトベースの機能評価と内部モデル状態の表象分析――を用いて評価する。著者らの結果は、タスク性能と内部状態との間に著しい乖離を示す。LLMsは内部的に構成表象を信頼性高く発展させるが、モデル間で機能的タスクの成功へ一貫して翻訳することには失敗する。したがって、モデルの能力をより完全に理解するためには対照的評価の重要性を強調する。




