言語モデルのスケールに伴い、低次の線形深さダイナミクスが出現する

arXiv cs.LG / 2026/3/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

32次元の線形代理モデルは、GPT-2-largeの層ごとの感度プロファイルを、毒性、皮肉、ヘイトスピーチ、感情分析などの複数タスクにおいて正確に再現できる。
この代理モデルは、各層に小さな加算的注入を加えたときに最終出力がどのように変化するかを明らかにし、深さダイナミクスの正確で解釈可能な分析を可能にする。
著者らはスケーリング原理を発見した：固定次数の代理モデルに対して、GPT-2ファミリー全体でモデルサイズが大きくなるにつれて完全モデルとの一致が単調に改善する。
線形代理は、完全なモデルに適用した場合、標準的なヒューリスティックなスケジュールよりもエネルギーを少なく用いて実行できる原理的な多層介入を可能にする。
これらの結果は、言語モデルがスケールするにつれて低次の線形深さダイナミクスが出現することを示唆しており、分析と制御のためのシステム論的基盤を提供する。

概要：大規模言語モデルはしばしば高次元の非線形システムとして見なされ、ブラックボックスとして扱われる。ここでは、トランスフォーマーの深さダイナミクスが文脈内で正確な低次の線形代理モデルを認めることを示す。毒性、皮肉、ヘイトスピーチ、感情分析を含むタスク全体にわたり、32次元の線形代理モデルはGPT-2-largeの層ごとの感度プロファイルをほぼ完全に一致させ、各層での加法的注入が最終出力をどのように変化させるかを捉える。続いて、驚くべきスケーリング原理を暴く：固定次数の線形代理モデルに対して、GPT-2ファミリー全体で完全モデルとの一致はモデルサイズの増加とともに単調に改善する。この線形代理モデルは、完全モデルに適用した場合、標準的なヒューリスティックなスケジュールより少ないエネルギーで実行可能な原理的な多層介入を可能にする。総じて、言語モデルがスケールするにつれて文脈内に低次の線形深さダイナミクスが現れ、それらを分析・制御するためのシステム理論的基盤を提供する。

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

言語モデルのスケールに伴い、低次の線形深さダイナミクスが出現する

要点

関連記事

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer