ここ1か月、残差ストリームのトランスフォーマーを完全に置き換える、構造化されたワークスペースを用いたカスタムアーキテクチャの開発に取り組んでいました。
目標は「トランスフォーマーに勝った」と主張することではなく、ワークスペースを強制したときに構造的に何が起きるのか、そして計算(compute)の実際の行き先がどこになるのかを探る思考実験です。
見つけるのが楽しくて、とても興味深い結果でした。
CWTは(attn+FFNの)コア計算が22.9Mで、計算が一致したベースラインでは41.7Mです。そしてPPLで1.7%以内に収まり、同等に近い品質に対してコア計算ではおよそ45%のギャップに留まっています。
もう一つ、構造化されたワークスペースがもたらすのは、トークンごとにモデルがどのように動作しているかを完全に可視化できることです。3Dの可視化としてそれを観察し、記録することができます。標準的なトランスフォーマーでは、簡単に、あるいはそもそもできないのが普通です。
すべてのコード、モデルの重み、そして論文はオープンソースです。これは私にとって最初の本格的な研究論文です。フィードバックやアイデアは大歓迎です。
論文:
https://steel-skull.github.io/CWT-V5.6/
モデル:
https://huggingface.co/Steelskull/CWT-V5.6
モデルコード:
https://github.com/Steel-skull/CWT-V5.6
PS: このプロジェクトには計算資源と資金面の制約がありました。自己負担で支払っていたため、いくつかの点は範囲が限定されていることをご理解ください。
[link] [comments]



