やあ、みんな!この生き物に興味がある人もいるんじゃないかと思います。
そんなに私を責めないでください。実際、この ダメな プロトタイプについて、みなさんのフィードバックとアイデアを集めたかったのです。
少なくともこれは GPT/Llama/Mistral/Qwen アーキテクチャに基づくものではなく、他のモデルを勉強しているときに思いついたいくつかのアイデアに基づいています。
- アテンションと出力重みの共有(パラメータを削減);
- FFN に追加のウェイトセットを導入(パラメータを増やす、やった!);
- Word-Relative Rotary Position Embedding を導入します;
追加のウェイトの部分が、このアーキテクチャの最も面白いところだと思います。これについて多くの意見をいただきたいです。このウェイトセットはネストされたゲートとして使用され、通常の W2 @ (W1 @ x * silu(W3 @ x)) が W2 @ (W1 @ x * silu(W3 @ x * silu(W4 @ x))) のようになる...このままにして、石が投げられるのを待ちます。
はい、これはガレージモデルですが、動作します。標準のトランスフォーマーアーキテクチャと比較してデータ効率は約25%向上しており、基本的なベンチマーク(arc-e、arc-c、piqa、boolq、hellaswag)でかなり良い結果を出しています。1台のH100で30Bトークン(openwebtext および fineweb-edu)を学習しました。
とにかく、興味がある方は hf:y3i12/Prisma をご覧ください。
皆さんのご意見・コメントをお待ちしています 😁
[リンク] [コメント]
