要約:マルチタスクモデルは、関心のある各タスクに特化した異なるモデルのパラメータを直接結合することによって作成できることが示されています。
しかし、異なるタスクで独立して訓練されたモデルは、結合後のモデルの性能を低下させる干渉を示すことが多いです。
この問題を解決するために、結合モデルの表現がその構成要素モデルに対して生じるドリフトとして、クロス・タスク干渉の概念を形式的に定義します。
クロス・タスク干渉を低減することは、マージの性能を向上させる鍵です。
この問題に対処するため、我々は Resolving Interference (RI)(リゾルビング・インターフェレンス)という軽量な適応フレームワークを提案します。これは、専門モデルを分離して他のタスクの空間と機能的に直交するようにし、クロス・タスク干渉を低減します。
RIは、入力としてラベルなしの補助データのみを使用してこれを行います(すなわち、タスクデータは不要です)、データが乏しい状況にも適用可能です。
RIは最先端のマージ手法の性能を最大で3.8%向上させ、未知のドメインへの一般化も最大で2.3%改善します。
また、RIは補助入力の出所に対して頑健である一方、マージのハイパーパラメータの調整には著しく敏感ではないことがわかりました。
コードベースは以下で利用可能です: https://github.com/pramesh39/resolving_interference
干渉の解消(RI):改善されたモデル統合のためのモデルの分離
arXiv cs.LG / 2026/3/17
📰 ニュースModels & Research
要点
- 本論文は、クロス・タスク干渉(Cross-Task Interference)を、統合モデルの表現とそれを構成する専門家モデルの表現との間のドリフトとして定義し、これを有効なモデル統合の主要な障壁と位置づけている。
- RIは、専門家モデルを分離させ、それらの表現を他のタスクと直交するようにする軽量な適応フレームワークであり、結果としてクロス・タスク干渉を低減する。
- RIはラベルなしの補助データのみを使用し、データ不足の設定を可能にするとともに、タスク特有のデータの必要性を回避する。
- 実証的には、RIは最先端の統合手法を最大で3.8%改善し、未知のドメインへの一般化を最大で2.3%向上させ、補助データソースおよびハイパーパラメータ調整に対して堅牢であることを示す。コードは提供されたGitHubリンクで入手可能です。
関連記事
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築
Reddit r/MachineLearning
DuckLLM 1.0 — 私の初めてのモデルを紹介します!
Reddit r/LocalLLaMA
FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。
Reddit r/LocalLLaMA
高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]
Reddit r/MachineLearning