[R] 構造は規模より上位に：MagnusおよびSeedアーキテクチャの自動発見における、メモリ重視の推論と深さ刈り込みによる効率

Reddit r/MachineLearning / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本記事は、「Seed」アーキテクチャの自動発見に関する小規模な実験を報告しており、パラメータ数を拡大するのではなく、メモリ重視でより小さな推論能力を持つモデルを見つけることに焦点を当てています。
4つの意図（intent）データセット（Banking77、CLINC150、HWU64、MASSIVE）において、「Dynamic Seed Distill」手法は、多くの場合、「Logistic TF-IDF」ベースラインより約4〜5倍少ないパラメータ数で競争力のある精度を達成します。
Banking77では、蒸留されたダイナミック・シードモデルがベースラインより高い精度に到達しつつ、はるかに少ないパラメータ数（約12.6k vs 約64.9k）であることが示され、構造を先に探索することの効率化の可能性が強調されています。
CLINC150およびHWU64では結果が混在しており、ダイナミック／ダイナミック蒸留シードはより小さく推論時間も短い一方で、最強のベースライン精度を常に上回るとは限りません。
著者の主な結論は、自動の構造探索（Seed）が「それでも良好に機能する最小のアーキテクチャ」を特定できるということであり、従来の「規模を拡大して運に任せる」戦略と対比されています。

データセット	モデル	Acc	F1	Δ vs Log	Δ vs Static	平均パラメータ数	最大パラメータ数	ステップ数	推論 ms	サイズ
Banking77-20	Logistic TF-IDF	92.37%	0.9230	+0.00pp	+0.76pp	64,940	64,940	0.00M	0.473	1.000x
	Static Seed	91.61%	0.9164	-0.76pp	+0.00pp	52,052	52,052	94.56M	0.264	0.801x
	Dynamic Seed Distill	93.53%	0.9357	+1.17pp	+1.92pp	12,648	16,881	70.46M	0.232	0.195x

CLINC150 | Logistic TF-IDF | 97.00% | 0.9701 | +0.00pp | +1.78pp | 41,020 | 41,020 | 0.00M | 0.000 | 1.000x | Static Seed | 95.22% | 0.9521 | -1.78pp | +0.00pp | 52,052 | 52,052 | 66.80M | 0.302 | 1.269x | Dynamic Seed | 94.78% | 0.9485 | -2.22pp | -0.44pp | 10,092 | 10,136 | 28.41M | 0.324 | 0.246x | Dynamic Seed Distill | 95.44% | 0.9544 | -1.56pp | +0.22pp | 9,956 | 9,956 | 32.69M | 0.255 | 0.243x HWU64 | Logistic TF-IDF | 87.94% | 0.8725 | +0.00pp | +0.81pp | 42,260 | 42,260 | 0.00M | 0.000 | 1.000x | Static Seed | 87.13% | 0.8674 | -0.81pp | +0.00pp | 52,052 | 52,052 | 146.61M | 0.300 | 1.232x | Dynamic Seed | 86.63% | 0.8595 | -1.31pp | -0.50pp | 12,573 | 17,565 | 62.54M | 0.334 | 0.297x | Dynamic Seed Distill | 87.23% | 0.8686 | -0.71pp | +0.10pp | 13,117 | 17,575 | 62.86M | 0.340 | 0.310x MASSIVE-20 | Logistic TF-IDF | 86.06% | 0.7324 | +0.00pp | -1.92pp | 74,760 | 74,760 | 0.00M | 0.000 | 1.000x | Static Seed | 87.98% | 0.8411 | +1.92pp | +0.00pp | 52,052 | 52,052 | 129.26M | 0.247 | 0.696x | Dynamic Seed | 86.94% | 0.7364 | +0.88pp | -1.04pp | 11,595 | 17,565 | 47.62M | 0.257 | 0.155x | Dynamic Seed Distill | 86.45% | 0.7380 | +0.39pp | -1.53pp | 11,851 | 19,263 | 51.90M | 0.442 | 0.159x

Seed（アーキテクチャ探索）を軸に小さな実験を作りました

4つの意図データセットで検証しました：

Banking77
CLINC150
HWU64
MASSIVE

結果は正直、驚きました。

Banking77では：

Logistic TF-IDF: 92.37%
Dynamic Seed（蒸留済み）: 93.53%

約5倍小さい（12.6k 対 64.9k パラメータ）

他のデータセットでは：

CLINC150 / HWU64 → いつも精度が高いわけではありません
しかし、競争力のある性能で約4〜5倍小さなモデルになります

MASSIVE → 品質 + サイズが一貫して勝ちます

重要なパターン：

Dynamic Seedは、はるかに小さいアーキテクチャを見つけても競争力を維持できることが多く、強力なベースラインを上回ることもある

これは大きいモデルの話ではありません。
やりたいのは：

それでも勝てる最小のモデルを見つけること

従来のアプローチ：

サイズをスケールして、向上を期待する

Seed：

構造を探索して、賢く圧縮する

いくつかの学び：

Staticモデルはしばしば負ける

動的な探索は一貫して効率を改善する

蒸留は小さなモデルを安定させるのに役立つ

一様なスケーリングよりも構造が重要

これがSeed AutoArchの目指す方向性です：

実タスクに対して効率的なモデルを自動で発見する

AGIではない
「NLUを解決した」でもない
ただし、現実のシグナルとして：

structure > scale

皆さんはこれをどう見ますか？

投稿者: /u/califalcon
[リンク] [コメント]

【64歳からのAI挑戦no.8】なぜ60代こそAIを学ぶべきだと思ったのか― AI時代に求められる本当の力 ―

note

【Gemini3.1Pro、GPT-5.3Instant】💯出るか⁉️チャレンジ‼️あなたの大好きな美女、彼女、奥さんは何点？AI画像審美評価員2981文字プロンプト

note

草薙素子はなぜ消えたのか——AI時代の2026年、押井守が1995年に問い続けたものの正体

note

40代フリーランス必見！「検索ループ」から抜け出す。手持ちの知識だけでAIに記事構成を作らせる【情報遮断プロンプト】

note

AIで作った顔の方が美しいのに、なぜ私は惹かれないのか

note

[R] 構造は規模より上位に：MagnusおよびSeedアーキテクチャの自動発見における、メモリ重視の推論と深さ刈り込みによる効率

要点

関連記事

【64歳からのAI挑戦no.8】なぜ60代こそAIを学ぶべきだと思ったのか― AI時代に求められる本当の力 ―

【Gemini3.1Pro、GPT-5.3Instant】💯出るか⁉️チャレンジ‼️あなたの大好きな美女、彼女、奥さんは何点？AI画像審美評価員2981文字プロンプト

草薙素子はなぜ消えたのか——AI時代の2026年、押井守が1995年に問い続けたものの正体

40代フリーランス必見！「検索ループ」から抜け出す。手持ちの知識だけでAIに記事構成を作らせる【情報遮断プロンプト】

AIで作った顔の方が美しいのに、なぜ私は惹かれないのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer