残差ストリームを取り外して構造化ワークスペースに置き換えると何が起きるのか（研究論文 - CWT）

Reddit r/LocalLLaMA / 2026/4/19

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者は、残差ストリームを使う従来のトランスフォーマー構成を置き換えるCWT（構造化ワークスペース）アーキテクチャについて、トランスフォーマーに完全に勝ったと主張するというより「構造の違いがもたらす影響」を探る思考実験として説明しています。
compute-matchedの比較では、CWTはコア計算（attention+FFN）が22.9Mで、ベースラインの41.7Mに対し、ほぼ同等の品質に対してPPLが約1.7%以内に収まったと報告しています。
この結果は、コア計算を約45%削減しつつ同程度の品質を維持できる可能性を示し、「実際にどこに計算が使われているのか」を浮かび上がらせるものだとしています。
構造化ワークスペースの重要な利点として、標準的なトランスフォーマーでは作りにくい（あるいは難しい）1トークンごとの挙動追跡や3D可視化による解釈可能性の向上が挙げられています。
論文、モデル重み、コードはすべてオープンソースとして公開されており、著者はフィードバックを歓迎しつつ、計算資源と資金面の制約で範囲に限りがある点も述べています。

ここ1か月、残差ストリームのトランスフォーマーを完全に置き換える、構造化されたワークスペースを用いたカスタムアーキテクチャの開発に取り組んでいました。

目標は「トランスフォーマーに勝った」と主張することではなく、ワークスペースを強制したときに構造的に何が起きるのか、そして計算（compute）の実際の行き先がどこになるのかを探る思考実験です。

見つけるのが楽しくて、とても興味深い結果でした。

CWTは（attn+FFNの）コア計算が22.9Mで、計算が一致したベースラインでは41.7Mです。そしてPPLで1.7%以内に収まり、同等に近い品質に対してコア計算ではおよそ45%のギャップに留まっています。

もう一つ、構造化されたワークスペースがもたらすのは、トークンごとにモデルがどのように動作しているかを完全に可視化できることです。3Dの可視化としてそれを観察し、記録することができます。標準的なトランスフォーマーでは、簡単に、あるいはそもそもできないのが普通です。

すべてのコード、モデルの重み、そして論文はオープンソースです。これは私にとって最初の本格的な研究論文です。フィードバックやアイデアは大歓迎です。

論文：

モデル：

モデルコード：