[P] また別のガレージ型モデル - Prisma: Interpretability-Inspired Architecture

Reddit r/MachineLearning / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

Prisma は、データ効率を改善するための解釈性に着想を得た設計選択を備えたガレージモデルとして提案されています。
アテンション機構と出力重みの共有を用いてパラメータを削減し、FFN に追加のウェイトセットを加えることでパラメータを増やしつつ、ネストされたゲートとして機能させ、容量を制御的に増やします。
位置情報を扱うために Word-Relative Rotary Position Embedding を導入します。
著者は標準のトランスフォーマーより約25％データ効率が高いとベンチマーク（arc-e、arc-c、piqa、boolq、hellaswag）で報告しており、OpenWebText および fineweb-edu を用いて 30B トークンを 1 台の H100 で学習しました。
この投稿はフィードバックを呼びかけ、HuggingFace リポジトリへのリンクを提供しています。

やあ、みんな！この生き物に興味がある人もいるんじゃないかと思います。

そんなに私を責めないでください。実際、このダメなプロトタイプについて、みなさんのフィードバックとアイデアを集めたかったのです。

少なくともこれは GPT/Llama/Mistral/Qwen アーキテクチャに基づくものではなく、他のモデルを勉強しているときに思いついたいくつかのアイデアに基づいています。

アテンションと出力重みの共有（パラメータを削減）;
FFN に追加のウェイトセットを導入（パラメータを増やす、やった！）;
Word-Relative Rotary Position Embedding を導入します；

追加のウェイトの部分が、このアーキテクチャの最も面白いところだと思います。これについて多くの意見をいただきたいです。このウェイトセットはネストされたゲートとして使用され、通常の W2 @ (W1 @ x * silu(W3 @ x)) が W2 @ (W1 @ x * silu(W3 @ x * silu(W4 @ x))) のようになる...このままにして、石が投げられるのを待ちます。

はい、これはガレージモデルですが、動作します。標準のトランスフォーマーアーキテクチャと比較してデータ効率は約25%向上しており、基本的なベンチマーク（arc-e、arc-c、piqa、boolq、hellaswag）でかなり良い結果を出しています。1台のH100で30Bトークン（openwebtext および fineweb-edu）を学習しました。

とにかく、興味がある方は hf:y3i12/Prisma をご覧ください。

皆さんのご意見・コメントをお待ちしています 😁

投稿者 /u/y3i12
[リンク] [コメント]

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

[P] また別のガレージ型モデル - Prisma: Interpretability-Inspired Architecture

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer