大規模言語モデルのための分散解釈可能性と制御
arXiv cs.LG / 2026/4/9
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、従来の単一GPUツールでは対応しきれなかった大規模言語モデルに対し、活性(activation)レベルの解釈可能性(ロジット・レンズ)と出力のステアリング(steering vectors)を実現するための、実用的なマルチGPUアプローチを提案する。
- 提案システムは、同一ハードウェア上のベースラインと比較して、活性メモリを最大7倍削減し、スループットを最大41倍向上させる。
- LLaMA-3.1(8B/70B)およびQwen-3(4B/14B/32B)での実験により、長さ1,500トークンのシーケンスに対して全層の活性遷移(activation trajectories)を収集しつつ、生成性能をおよそ20〜100トークン/秒で維持できることが示される。
- LayerNormの後にラベル位置(label-position)のステアリングベクトルを注入することで、微調整や追加のフォワードパスなしに、制御可能で単調な出力シフトを可能にする。報告されている平均ステアラビリティの傾き(mean steerability slope)は0.702である。
- 著者らは、最先端LLMに対するリアルタイムな挙動制御と解釈可能性を支援するために、ベンチマーク、アブレーション、再現可能な計測(instrumentation)レシピ(GitHubリポジトリを含む)を公開する。




