行列積演算子(Matrix Product Operator)分解によるトランスフォーマ言語モデルの圧縮:PicoGPTに関するケーススタディ
arXiv cs.CL / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、行列積演算子(MPO)分解によって重み行列を分解することで、行列積演算子(MPO)を用いてトランスフォーマ言語モデルを圧縮することを提案し、近似品質を制御するために結合次元
- \(\chi\) を用いる。
- 約100万パラメータのPicoGPT(GPT-2スタイルの文字モデル)を用い、著者らはすべての \(\texttt{nn.Linear}\) 層を、MPOチェーンとしてパラメータ化された \(\texttt{MPOLinear}\) モジュールに置き換え、標準のPyTorch autogradで学習する(カスタムの逆伝播は行わない)。
- 初期化戦略について、事前学習済みの密な重みからのTT-SVDとランダムの比較を行い、また \(\chi\) の複数値(4, 8, 16, 32)を、モデル内の異なる重み形状に対応づけられた複数の因数分解方式のもとでTiny Shakespeareに対して評価する。
- 結果として、\(\chi=4\) ではトランスフォーマブロックあたり最大約13倍の圧縮が得られ、\(\chi=16\) ではベースラインのトークン精度の97.7%を保持しつつ、必要パラメータ数は 191,872 対 1,020,224 と大幅に削減できることが示される。
- \(\chi=8\) の構成が、最も良い精度対パラメータ効率(トレードオフ)を達成し、密なベースラインより約2.7倍改善する。これは、MPOによるパラメータ化が、低ランク手法や非構造的プルーニングの実用的な代替となり得ることを支持する。



