LAPITHSで「センタウロス」を飼いならす:AIパフォーマンスの理論的に根拠づけられた解釈のためのフレームワーク

arXiv cs.AI / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、人間らしさに関するAIの主張を評価するための、AIパフォーマンスの理論的に根拠づけられた解釈の枠組み「LAPITHS」を提案する。
  • LAPITHSを用いて、CENTAUR(認知の人工統一モデル)として提示されたモデルに関連する主要な主張のいくつかが、理論的・実証的に裏づけられていないと著者は主張する。
  • 研究上の「行動主義的な傾向」を問題視し、トランスフォーマー系言語モデルの性能を、人間に似た基盤計算や認知能力の証拠として見なす解釈に警鐘を鳴らしている。
  • LAPITHSは、理論的に動機づけられた「Minimal Cognitive Grid(最小認知グリッド)」による認知尤度推定と、認知的妥当性に結びつく構造制約を満たさない別システムでも同様の挙動が再現できることを示す行動比較の2つの定量的要素で構成される。
  • 著者らは、CENTAURのようなシステムで観察される振る舞いの一部は、人間の認知を独立に説明するものではなく、認知的に妥当性が低い別システムでも再現可能だと結論づける。

Abstract

本稿では、LAPITHS(Language model Analysis through Paradigm grounded Interpretations of Theses about Human likenesS)と呼ぶ枠組みを導入し、それを用いて、人工的な統一的認知モデルとして提案されているCENTAURのようなモデルによって提示されたいくつかの主要な主張が、理論的にも実証的にも正当化されていないことを示す。LAPITHSは、AI研究における、トランスフォーマ型言語モデルの人間レベルの性能を、人間に似た基盤となる計算の証拠、ひいては認知能力の徴候として解釈するという現行の行動主義的傾向に対抗するための、原理に基づく参照点を提供する。LAPITHSの新規性は、2つの定量的評価に基づく議論を明示化する点にある: (i) 人工システムの認知的妥当性を推定するための、理論的に動機づけられた方法であるMinimal Cognitive Grid、そして (ii) CENTAURのようなモデルで報告されたものと類似した結果が、認知的妥当性に通常関連づけられる構造的制約を満たさない別のシステムによっても再現でき、かつその出力が人間の認知を独立に説明する洞察を提供しないことを示す行動学的比較。