みなさん、こんにちは。
この件に数か月取り組んでいて、ようやく論文を arXiv に投稿しました: https://arxiv.org/abs/2603.22755
プロジェクトページ: https://murailabs.com/kalavai/
コード + スクリプト: https://github.com/mechramc/Kalavai
基本アイデアはこうです。ベースとなるチェックポイントを用意し、それをたくさんの人にコピーとして渡します。そして各人が、それぞれのドメインまたは言語に対して独立にファインチューニングします(コミュニケーションなし、共有勾配なし、何もなし)。その後、すべてのチェックポイントを集めて、その上に軽量な MoE(Mixture of Experts)ルータを約 500 ステップで学習させます。融合モデルは、どんな個別のスペシャリストよりも性能が上です。
Pythia で 410M、1B、6.9B の各設定に対して検証しました。改善は一貫しています。410M/1B では最良の個別スペシャリストに対して約 +7-8%、6.9B では +6.5% です。面白い点は、その改善が、スペシャリストがベースからどれだけ分岐したか(どれだけ離れたか)によって予測可能だということです。私は単純な線形式を当てはめました(R² = 0.856)。これにより、誰も学習を始める前に「協調(cooperative)」をやる価値があるかどうか見積もれます。
クロスリンガルの結果が、特に私が一番ワクワクしているところです。Pythia が基本的に知らない言語である、タミル語、ヨルバ語、ウェールズ語、コード(プログラミング言語)を対象にスペシャリストを学習し、それらを融合しました。ヨルバ語の perplexity は 41.9 から 7.7 に下がりました。ウェールズ語は 102.7 から 22.1 へ。MoE は同時に、各スペシャリストが自分の言語に対して出した性能をそれぞれ一致させました。誰もデータを共有しませんでした。
さらに 20 人の貢献者による実験(10 言語 + 10 ドメイン)も行い、最良のスペシャリストに対して +16.71% を得ました。ルータは自分で、医療と化学のテキストは 60/40 でクロスルーティングすべきだと見抜きました。誰もそのドメイン同士の重なりを教えていません。
率直な制限:
- 推論コストはスペシャリスト数に対して線形に増える(全部を実行するため)
- 6.9B を超える設定はテストしていない
- 予測式は 6 つのデータ点に基づいている——有用なのはヒューリスティックとしてであり、普遍的な法則ではない
- LoRA ではこの手法は機能しない——凍結していない層の完全なファインチューニングが必要
**助けが必要なところ:**
私はこれをもって NeurIPS 2026 を目指しており、異なるハードウェア構成の方々による独立した検証をぜひお願いしたいです。この実験はかなり自己完結的です:
Pythia のチェックポイントを選ぶ(410M が最も安く、コンシューマ向け GPU で 1 時間未満で動く)
異なるドメインそれぞれに対して、3 つのスペシャリストをそれぞれ 2,000 ステップファインチューニングする
混合データでルータを 500 ステップ学習する
ホールドアウト評価で、融合モデル vs 最良の個別スペシャリストを比較する
必要なものはすべて GitHub リポジトリにあります。410M で約 +7% の改善を再現できるなら、あるいはさらに良いことに、私がテストしていないスケール(13B+)で試してみられるなら、非常に価値があります。論文に入った独立した結果はすべてクレジットします。
リソースが限られている言語、または公開できないドメイン固有データを扱っている場合、このプロトコルはまさにその状況のために設計されました。
名前は KALAVAI(கலவை)——融合/混合のタミル語です。Murai Labs で開発されました。
セットアップ、結果、また失敗のパターンについて、どんな質問にも喜んで答えます。
[link] [comments]



