AI Navigate

[P] また別のガレージ型モデル - Prisma: Interpretability-Inspired Architecture

Reddit r/MachineLearning / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Prisma は、データ効率を改善するための解釈性に着想を得た設計選択を備えたガレージモデルとして提案されています。
  • アテンション機構と出力重みの共有を用いてパラメータを削減し、FFN に追加のウェイトセットを加えることでパラメータを増やしつつ、ネストされたゲートとして機能させ、容量を制御的に増やします。
  • 位置情報を扱うために Word-Relative Rotary Position Embedding を導入します。
  • 著者は標準のトランスフォーマーより約25%データ効率が高いとベンチマーク(arc-e、arc-c、piqa、boolq、hellaswag)で報告しており、OpenWebText および fineweb-edu を用いて 30B トークンを 1 台の H100 で学習しました。
  • この投稿はフィードバックを呼びかけ、HuggingFace リポジトリへのリンクを提供しています。

やあ、みんな!この生き物に興味がある人もいるんじゃないかと思います。

そんなに私を責めないでください。実際、この ダメな プロトタイプについて、みなさんのフィードバックとアイデアを集めたかったのです。

少なくともこれは GPT/Llama/Mistral/Qwen アーキテクチャに基づくものではなく、他のモデルを勉強しているときに思いついたいくつかのアイデアに基づいています。

  • アテンションと出力重みの共有(パラメータを削減);
  • FFN に追加のウェイトセットを導入(パラメータを増やす、やった!);
  • Word-Relative Rotary Position Embedding を導入します;

追加のウェイトの部分が、このアーキテクチャの最も面白いところだと思います。これについて多くの意見をいただきたいです。このウェイトセットはネストされたゲートとして使用され、通常の W2 @ (W1 @ x * silu(W3 @ x))W2 @ (W1 @ x * silu(W3 @ x * silu(W4 @ x))) のようになる...このままにして、石が投げられるのを待ちます。

はい、これはガレージモデルですが、動作します。標準のトランスフォーマーアーキテクチャと比較してデータ効率は約25%向上しており、基本的なベンチマーク(arc-e、arc-c、piqa、boolq、hellaswag)でかなり良い結果を出しています。1台のH100で30Bトークン(openwebtext および fineweb-edu)を学習しました。

とにかく、興味がある方は hf:y3i12/Prisma をご覧ください。

皆さんのご意見・コメントをお待ちしています 😁

投稿者 /u/y3i12
[リンク] [コメント]