「すべてを翻訳する1つのモデル」は可能か？多言語モデル統合のためのマウント・ドゥームへの旅

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多言語機械翻訳における重み空間でのモデル統合を研究し、多タスク設定でうまく機能する統合戦略が言語間ではなぜ失敗しうるのかを理解することを目的とする。
大規模なバイリンガル・コーパスに対する全面的な追加学習（ファインチューニング）と、標準的な統合手法の評価を通じて、著者らは統合が一般に性能を低下させ、その低下が特に目標言語が異なる場合に深刻になることを見出す。
分析では、ニューロン選択性の指標（区間条件付き）と、層ごとの中心化カーネル・アラインメントを用いて、言語固有のニューロンが埋め込み層および上位のトランスフォーマ層に集中している一方、中間層は比較的共有されたままであることを示す。
ファインチューニングは言語選択性を「鋭くする」というより再配分し、教師あり／関連言語のニューロンをより排他的にせず、教師なしの言語に対応するニューロンをより孤立させていくことが示される。
その結果として高層に生じる表現の乖離は、重み空間統合を有効にする幾何学的仮定を損ない、多言語統合失敗の機械論的な説明を与える。

要旨: 重み空間モデルのマージは、元の学習データにアクセスすることなく、独立に微調整されたモデルを結合し、共同学習に代わる実用的な手段を提供する。マージはマルチタスク設定では成功する一方、その挙動が多言語文脈でどうなるかは、いまだ十分に理解されていない。我々は、大規模なバイリンガル対訳コーパス上で言語モデルを完全に微調整し、標準的なマージ戦略を評価することで、多言語機械翻訳に対する重み空間マージを体系的に研究する。我々の実験結果は、特に目標言語が異なる場合に、マージが性能を劣化させることを明らかにする。この失敗を説明するために、span 条件付きニューロン選択性と、層ごとの中心化カーネル整列を用いて内部表現を分析する。その結果、言語固有のニューロンは埋め込み層と上位のトランスフォーマブロックに集中し、一方で中間層は多言語間で概ね共有されたままであることが分かる。決定的な点として、微調整は言語選択性を「鋭くする」のではなく、再分配することが分かる。すなわち、教師ありおよび関連する言語のためのニューロンは排他性が低下し、一方で教師なしの言語のためのニューロンはより孤立していく。この再分配は、生成を司る上位層における表現の相違（ダイバージェンス）を増大させる。これらの知見は、多言語微調整が、標準的な重み空間マージの仮定との適合性を低下させるような形状（ジオメトリ）の変化を引き起こしうることを示唆する。したがって本研究は、多言語翻訳シナリオにおいてマージが失敗する理由を説明するものである。