AI Navigate

Mistral NEMOのアップスケール、でもちょっと変

Reddit r/LocalLLaMA / 2026/3/11

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 記事はMistral Nemoモデルの実験的なアップスケールとプルーン(枝刈り)修正について述べており、より“厚み”があり一貫性のあるバージョンに仕上がっている。指示に従う能力が高く、新しい言語にも対応している。
  • この改変モデル「Fat Fish」はHuggingfaceで公開されており、元はMistral-Nemo-Base-2407で、約30億トークンを追加し大幅な構造調整が施された。
  • プロジェクトには約1000ドルが投入されており、MOE(専門家混合)モデルの台頭により新規リリースが減っているものの、Nemoのような高密度ベースモデルは依然として価値が高いと著者が考えていることを示している。
  • 本モデルのアップグレードは、一般的に行われるスタック・マージによるアップスケールではなく、“適切な”アップスケールとプルーンであり、トレーニング中にレイヤーをゼロ化することはなく、今後の微調整や実験に適した真に改善された高密度モデルを目指している。
  • 著者はコミュニティの要望を受けて中間段階として本モデルを公開し、性能や機能をさらに洗練させるために開発を継続する予定である。

2026年3月。アップスケールしたい、プルーンもしたい。なら両方やればいいじゃん?ところでなんで魚は太ってるの?これ、ちゃんと一貫してるの?

ちゃんと一貫してるし、指示に従うし、新しいことも知ってるし、新言語にも対応してる。

モデルはこちらで入手可能:

https://huggingface.co/SicariusSicariiStuff/Fat_Fish

これは普通のMistral Nemoをベースに、約30億トークンを食べさせ、ぶっ飛んだ改変を加えて、適切な(?)ところを“厚く”したモデルだ。

基本的に、これはmistralai/Mistral-Nemo-Base-2407の非常に実験的な正真正銘のアップスケールである。

この小さいプロジェクトには約1,000ドルが投入された。Mistralベースのモデルに対する価値あるアップスケール実験としては悪くない投資だ。

重要:これは私の構想の中間段階であり、このモデルは(驚くほど)一貫しているが、まだ改良が必要だ。複数の人からチューニングしたいという熱意が寄せられたため、現状のまま“ありのまま”で公開することにした(率直に言って、ぶっ飛んだ好奇心に基づいたものだ)。

でもなぜ?

理由は:

  1. Mistral Nemoは優秀だ
  2. MOE(専門家混合)モデルの優勢により、高密度モデルは今後あまり出ないだろう

この2点は多くの人が思うよりも重要だ。Mistralは同じくらいのサイズ(例えば14B)の新しい高密度モデルをリリースしたが、多くの人の意見では古いNemoの方が一般的に優れている。どうしてわかるか?簡単だ、2025年以降(そして2026年でも)のNemoのチューニング数を、新しいベースモデルと比較してみてほしい。またベンチマークも、古いNemoの方が知識が多くチューニングに向いていることを示している。

2つ目のポイントについては、オープンソースコミュニティが新しい高密度ベースモデルを手に入れる機会は散発的であり、多くは巨大なMOEの急速な台頭によって少なくなっている。

つまりこう考えたのだ。「新しいベースモデルが手に入らないなら、自分で作るしかない」と。

“正真正銘の”アップスケールかつ枝刈り

なぜ“正真正銘”と言うのか?数多くのモデルアップスケールが現存しているのでは?そうではない。ほとんどの“アップスケール”はマージキットによるスタックマージに過ぎず、多くの場合down_projがゼロ化されている。なぜかというと、ランダムな場所に複製層を貼り付けると、モデルの出力がASCII文字やランダムな単語だけになるからだ。この魚の学習中にはどの層もゼロ化されていない。

本モデルはアップスケールかつ枝刈りであり、大切なNemoにとんでもない改変を加えたものだ。

主な構造の変更点は以下の通り:

パラメータ Base Nemo Fat_Fish
隠れ層サイズ 5120 5120
中間層サイズ 14336 12608
レイヤー数 32 56
アテンションヘッド数 32 48
キー/バリューヘッド数 8 12(なんとなく)
  • なぜ16ではなく12のKVヘッドなのか? 12はきれいな割り切り数ではないが、実験として試してみた。理論上はKVヘッドの増加は文脈表現と注意の精度向上に寄与するが、16にするとトレーニングと推論時のメモリと計算負荷が目に見えて増大する。12は中間の妥協案として選んだ結果、驚くほどうまく機能し、チューニング時も安定し、推論でも問題なく、量子化にも耐えた。工学的には少し“微妙”な数字だが、実用上は効率と能力のバランスが取れた非常に使いやすい妥協案となった。

使い方の提案

このモデルは現状のままで人間が使うためのものではなく、あくまでベースとして成長させるためのものだ。生の生地をそのまま食べる人はいないだろう?(とはいえどこかで誰かが🥟👨‍🍳していることは確信しているが)

モデルにはノイズを様々な箇所に注入し、特定場所の複製テンソルが十分にノイズを持つようにして新しい知識を学習させたが、驚くことに大規模CPT後は一部の層がほぼ同じパターンに収束し始めた。よって以下を推奨する:

  • レイヤー類似度の分析を行う
  • 類似度の高いレイヤーを対象に全体微調整し、残りは固定する

追加された新データ

データソース/種類 割合 説明
ファンダム/ロア知識 20% MorrowindFalloutKenshiの知識やロアを重点的に含む
人間が書いたコンテンツ 50% 一般的なインターネット文章、エッセイ、ブログ、議論、自然な対話
合成指示データ 4% 指示スタイルのプロンプト
ヘブライ語テキストコーパス 16% 現代ヘブライ語のウェブテキスト、フォーラム、ドキュメント、会話データ
その他混合ソース 10% その他のデータセットやバランスマテリアル

安全性

  • あまり安全ではない。ナイフだってそうだろう。世の中は危険だ。

論文好きのために、関連資料も紹介しておく:

 submitted by   /u/Sicarius_The_First
[リンク]  [コメント]