[R] KALAVAI: 独立した専門家(スペシャリスト)同士の融合がいつ効くかを予測する(gain = 0.82 × divergence − 2.72、R² = 0.856、410M〜6.9Bで検証)

Reddit r/MachineLearning / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文はKALAVAIという融合手法を提案する。通信や共有勾配を行わずに独立して微調整した専門家モデル(スペシャリスト)を、上に学習する軽量なMoEルータによって(およそ500ステップで)結合する。
  • Pythiaでの実験では、単一の最良専門家に対して一貫して精度向上が得られ、410M〜1Bで約+6.5%〜+8%、6.9Bでは約+6.5%となった。また、その利得が、専門家がベースのチェックポイントからどれだけ分岐(diverge)しているかによって予測可能であることを示し、R² = 0.856を得た。
  • 重要なハイライトはクロスリンガル(多言語)結果である。Pythiaが持つ知識の範囲から大きく外れた言語で学習した専門家(例:ヨルバ語、ウェールズ語)を融合すると、困惑度(perplexity)が劇的に低下する。ルータは、それぞれの専門家の言語に対する性能に同時に一致する形で適切にルーティングできる。
  • 20人の貢献者による実験(10言語+10ドメイン)では、最良専門家に対して+16.71%となり、ルータが明示的な教示なしに、ドメインの重なりパターン(例:医療/化学を約60/40でルーティング)を発見できることを示唆している。
  • 著者は実用上の制約に言及している。推論コストは専門家の数に比例して増加する、結果は6.9Bを超えては検証されていない、divergence-to-gainの式は6点のみに基づく(ヒューリスティック)、またLoRAだけでは不十分であり、凍結していない層のフル微調整が必要だという点である。

みなさん、こんにちは。

この件に数か月取り組んでいて、ようやく論文を arXiv に投稿しました: https://arxiv.org/abs/2603.22755

プロジェクトページ: https://murailabs.com/kalavai/

コード + スクリプト: https://github.com/mechramc/Kalavai

基本アイデアはこうです。ベースとなるチェックポイントを用意し、それをたくさんの人にコピーとして渡します。そして各人が、それぞれのドメインまたは言語に対して独立にファインチューニングします(コミュニケーションなし、共有勾配なし、何もなし)。その後、すべてのチェックポイントを集めて、その上に軽量な MoE(Mixture of Experts)ルータを約 500 ステップで学習させます。融合モデルは、どんな個別のスペシャリストよりも性能が上です。

Pythia で 410M、1B、6.9B の各設定に対して検証しました。改善は一貫しています。410M/1B では最良の個別スペシャリストに対して約 +7-8%、6.9B では +6.5% です。面白い点は、その改善が、スペシャリストがベースからどれだけ分岐したか(どれだけ離れたか)によって予測可能だということです。私は単純な線形式を当てはめました(R² = 0.856)。これにより、誰も学習を始める前に「協調(cooperative)」をやる価値があるかどうか見積もれます。

クロスリンガルの結果が、特に私が一番ワクワクしているところです。Pythia が基本的に知らない言語である、タミル語、ヨルバ語、ウェールズ語、コード(プログラミング言語)を対象にスペシャリストを学習し、それらを融合しました。ヨルバ語の perplexity は 41.9 から 7.7 に下がりました。ウェールズ語は 102.7 から 22.1 へ。MoE は同時に、各スペシャリストが自分の言語に対して出した性能をそれぞれ一致させました。誰もデータを共有しませんでした。

さらに 20 人の貢献者による実験(10 言語 + 10 ドメイン)も行い、最良のスペシャリストに対して +16.71% を得ました。ルータは自分で、医療と化学のテキストは 60/40 でクロスルーティングすべきだと見抜きました。誰もそのドメイン同士の重なりを教えていません。

率直な制限:

- 推論コストはスペシャリスト数に対して線形に増える(全部を実行するため)

- 6.9B を超える設定はテストしていない

- 予測式は 6 つのデータ点に基づいている——有用なのはヒューリスティックとしてであり、普遍的な法則ではない

- LoRA ではこの手法は機能しない——凍結していない層の完全なファインチューニングが必要

**助けが必要なところ:**

私はこれをもって NeurIPS 2026 を目指しており、異なるハードウェア構成の方々による独立した検証をぜひお願いしたいです。この実験はかなり自己完結的です:

  1. Pythia のチェックポイントを選ぶ(410M が最も安く、コンシューマ向け GPU で 1 時間未満で動く)

  2. 異なるドメインそれぞれに対して、3 つのスペシャリストをそれぞれ 2,000 ステップファインチューニングする

  3. 混合データでルータを 500 ステップ学習する

  4. ホールドアウト評価で、融合モデル vs 最良の個別スペシャリストを比較する

必要なものはすべて GitHub リポジトリにあります。410M で約 +7% の改善を再現できるなら、あるいはさらに良いことに、私がテストしていないスケール(13B+)で試してみられるなら、非常に価値があります。論文に入った独立した結果はすべてクレジットします。

リソースが限られている言語、または公開できないドメイン固有データを扱っている場合、このプロトコルはまさにその状況のために設計されました。

名前は KALAVAI(கலவை)——融合/混合のタミル語です。Murai Labs で開発されました。

セットアップ、結果、また失敗のパターンについて、どんな質問にも喜んで答えます。

submitted by /u/No_Gap_4296
[link] [comments]