AI Navigate

表データ理解のためのLLMsを詳しく見る

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、一般モデル、表データ特化型LLM、Mixture-of-Experts(MoE)モデルを含む16のLLMを対象に、表データの理解と下流タスクの実行方法を検証する実証研究を行っている。
  • 本研究は、注意ダイナミクス、実効的な層の深さ、エキスパート活性化、入力設計の影響という4つの次元を分析し、これらのモデルが表に対してどのように動作するかをマッピングする。
  • 初期層が広くスキャンし、中間層が関連セルを局在させ、後期層が寄与を増幅する、三段階のアテンションパターンを明らかにする。
  • 表データタスクは数学的推論より深い層を必要とすることを報告し、MoEモデルは中間層で表特化エキスパートを活性化する一方、初期層と後期層は汎用エキスパートに依存する。さらに、Chain-of-Thought prompting は表データへのアテンションを高め、表データの微調整によってさらなる利得が得られる。

要旨: 表理解における大規模言語モデル(LLMs)の成功にもかかわらず、その内部機構は依然として不明である。本論文では、一般的なLLM、表データに特化したLLM、そしてMixture-of-Experts(MoE)モデルを含む16のLLMを対象に実証的研究を実施し、LLMsが表データをどのように理解し、下流タスクをどのように実行するかを探る。我々の分析は、アテンションのダイナミクス、有効層の深さ、エキスパートの活性化、および入力設計の影響の4つの次元に焦点を当てる。主な知見は次のとおりである: (1) LLMは3段階のアテンションパターンに従う――初期層は表を広くスキャンし、中間層は関連セルを局在化し、後期層はそれらの寄与を増幅する; (2) 表データタスクは安定した予測を得るために、数学的推論よりも深い層を必要とする; (3) MoEモデルは中間層で表特化エキスパートを活性化し、初期層と後期層は汎用エキスパートを共有する; (4) Chain-of-Thought プロンプティングは表へのアテンションを高め、表データ向けのチューニングによってさらに強化される。これらの知見と洞察が、解釈性の向上と表関連タスクの今後の研究を促進することを期待している。