2026年3月。アップスケールしたい、プルーンもしたい。なら両方やればいいじゃん?ところでなんで魚は太ってるの?これ、ちゃんと一貫してるの?
ちゃんと一貫してるし、指示に従うし、新しいことも知ってるし、新言語にも対応してる。
モデルはこちらで入手可能:
https://huggingface.co/SicariusSicariiStuff/Fat_Fish
これは普通のMistral Nemoをベースに、約30億トークンを食べさせ、ぶっ飛んだ改変を加えて、適切な(?)ところを“厚く”したモデルだ。
基本的に、これはmistralai/Mistral-Nemo-Base-2407の非常に実験的な正真正銘のアップスケールである。
この小さいプロジェクトには約1,000ドルが投入された。Mistralベースのモデルに対する価値あるアップスケール実験としては悪くない投資だ。
重要:これは私の構想の中間段階であり、このモデルは(驚くほど)一貫しているが、まだ改良が必要だ。複数の人からチューニングしたいという熱意が寄せられたため、現状のまま“ありのまま”で公開することにした(率直に言って、ぶっ飛んだ好奇心に基づいたものだ)。
でもなぜ?
理由は:
- Mistral Nemoは優秀だ
- MOE(専門家混合)モデルの優勢により、高密度モデルは今後あまり出ないだろう
この2点は多くの人が思うよりも重要だ。Mistralは同じくらいのサイズ(例えば14B)の新しい高密度モデルをリリースしたが、多くの人の意見では古いNemoの方が一般的に優れている。どうしてわかるか?簡単だ、2025年以降(そして2026年でも)のNemoのチューニング数を、新しいベースモデルと比較してみてほしい。またベンチマークも、古いNemoの方が知識が多くチューニングに向いていることを示している。
2つ目のポイントについては、オープンソースコミュニティが新しい高密度ベースモデルを手に入れる機会は散発的であり、多くは巨大なMOEの急速な台頭によって少なくなっている。
つまりこう考えたのだ。「新しいベースモデルが手に入らないなら、自分で作るしかない」と。
“正真正銘の”アップスケールかつ枝刈り
なぜ“正真正銘”と言うのか?数多くのモデルアップスケールが現存しているのでは?そうではない。ほとんどの“アップスケール”はマージキットによるスタックマージに過ぎず、多くの場合down_projがゼロ化されている。なぜかというと、ランダムな場所に複製層を貼り付けると、モデルの出力がASCII文字やランダムな単語だけになるからだ。この魚の学習中にはどの層もゼロ化されていない。
本モデルはアップスケールかつ枝刈りであり、大切なNemoにとんでもない改変を加えたものだ。
主な構造の変更点は以下の通り:
| パラメータ | Base Nemo | Fat_Fish |
|---|---|---|
| 隠れ層サイズ | 5120 | 5120 |
| 中間層サイズ | 14336 | 12608 |
| レイヤー数 | 32 | 56 |
| アテンションヘッド数 | 32 | 48 |
| キー/バリューヘッド数 | 8 | 12(なんとなく) |
- なぜ16ではなく12のKVヘッドなのか? 12はきれいな割り切り数ではないが、実験として試してみた。理論上はKVヘッドの増加は文脈表現と注意の精度向上に寄与するが、16にするとトレーニングと推論時のメモリと計算負荷が目に見えて増大する。12は中間の妥協案として選んだ結果、驚くほどうまく機能し、チューニング時も安定し、推論でも問題なく、量子化にも耐えた。工学的には少し“微妙”な数字だが、実用上は効率と能力のバランスが取れた非常に使いやすい妥協案となった。
使い方の提案
このモデルは現状のままで人間が使うためのものではなく、あくまでベースとして成長させるためのものだ。生の生地をそのまま食べる人はいないだろう?(とはいえどこかで誰かが🥟👨🍳していることは確信しているが)
モデルにはノイズを様々な箇所に注入し、特定場所の複製テンソルが十分にノイズを持つようにして新しい知識を学習させたが、驚くことに大規模CPT後は一部の層がほぼ同じパターンに収束し始めた。よって以下を推奨する:
- レイヤー類似度の分析を行う
- 類似度の高いレイヤーを対象に全体微調整し、残りは固定する
追加された新データ
| データソース/種類 | 割合 | 説明 |
|---|---|---|
| ファンダム/ロア知識 | 20% | Morrowind、Fallout、Kenshiの知識やロアを重点的に含む |
| 人間が書いたコンテンツ | 50% | 一般的なインターネット文章、エッセイ、ブログ、議論、自然な対話 |
| 合成指示データ | 4% | 指示スタイルのプロンプト |
| ヘブライ語テキストコーパス | 16% | 現代ヘブライ語のウェブテキスト、フォーラム、ドキュメント、会話データ |
| その他混合ソース | 10% | その他のデータセットやバランスマテリアル |
安全性
- あまり安全ではない。ナイフだってそうだろう。世の中は危険だ。
論文好きのために、関連資料も紹介しておく:
[リンク] [コメント]
