大規模言語モデルのための分散解釈可能性と制御

arXiv cs.LG / 2026/4/9

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、従来の単一GPUツールでは対応しきれなかった大規模言語モデルに対し、活性（activation）レベルの解釈可能性（ロジット・レンズ）と出力のステアリング（steering vectors）を実現するための、実用的なマルチGPUアプローチを提案する。
提案システムは、同一ハードウェア上のベースラインと比較して、活性メモリを最大7倍削減し、スループットを最大41倍向上させる。
LLaMA-3.1（8B/70B）およびQwen-3（4B/14B/32B）での実験により、長さ1,500トークンのシーケンスに対して全層の活性遷移（activation trajectories）を収集しつつ、生成性能をおよそ20〜100トークン/秒で維持できることが示される。
LayerNormの後にラベル位置（label-position）のステアリングベクトルを注入することで、微調整や追加のフォワードパスなしに、制御可能で単調な出力シフトを可能にする。報告されている平均ステアラビリティの傾き（mean steerability slope）は0.702である。
著者らは、最先端LLMに対するリアルタイムな挙動制御と解釈可能性を支援するために、ベンチマーク、アブレーション、再現可能な計測（instrumentation）レシピ（GitHubリポジトリを含む）を公開する。

AI Business

AI Business

日経XTECH

日経XTECH

日経XTECH