この投稿は、より広い目標を持つシリーズの一部です:非線形性が行列固有値であるとき、1つの非線形「ニューロン」が何をできるか、そしてそれが、説明しやすい線形モデルと、表現力はあるが透明性ははるかに低い大規模なニューラルネットワークとの間の有用な中間点を与えるかどうか。何かこの "Attention Is All You Need" の世界で珍しいこと :)
この回では、学習済みの各行列を密なものの代わりに対称の三重対角行列に制約することで、モデルファミリーの安価なバリアントを検討します。
モデルファミリーは依然として f(x) = λₖ(A₀ + ∑ᵢ xᵢAᵢ) だが、固有値解法ははるかに安くなる。ここでの動機は、対角構造がモデルをほぼ区分的線形近似へと崩壊させる一方、三重対角構造は隣接する潜在変数間の相互作用を保持し続ける、ということです。
本投稿では、この構造的制限がなぜ興味深いのか、scipy.linalg.eigh_tridiagonal を PyTorch autograd に組み込んだ方法、そしていくつかのおもちゃ実験と表形式データの実験で何が起こるのかを解説します。私の実験では、三重対角固有値ソルバーは密な方より約 5x-6x 倍速く、100x100 バッチで動作しました。これにより大規模な実験を実行するコストが大幅に下がるのに十分でした。
構造化スペクトルモデル、数値線形代数ルーチン周りのカスタム autograd、または線形の解釈可能性と完全に不透明なニューラルネットの間に位置しようとするモデルファミリーに興味がある場合、完全版の解説はこちらです:
https://alexshtf.github.io/2026/03/15/Spectrum-Banded.html
これは論文というよりエンジニアリング上の解説ですので、その精神で読んでください。
[リンク] [コメント]