MNAFT：画像翻訳のためのマルチモーダル大規模言語モデルにおけるモダリティ・ニューロン認識型ファインチューニング

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

マルチモーダル大規模言語モデルは、画像中の細かな文字情報をうまく捉えられず、画像入力とテキスト入出力の間にモダリティ・ギャップが生じやすいという課題があります。
提案手法のMNAFT（modality neuron-aware fine-tuning）は、指示に基づく活性化解析によって、視覚モジュールと言語モジュールのそれぞれで言語非依存ニューロンと言語依存ニューロンを特定します。
MNAFTは、タスクに関連する層で、特定されたニューロンのみのパラメータを更新する選択的ファインチューニングを行い、事前学習知識を保ちつつ冗長な更新を避けることを狙います。
複数のベンチマークで、MNAFTはカスケード型モデル、通常のフル・ファインチューニング、パラメータ効率化チューニングなど既存手法を大きく上回ることが示されています。
本稿では、ニューロンの活性化可視化やクラスタリング分析など、どのニューロン群がクロスモーダル理解と正確な言語別翻訳に寄与するかを説明する解釈可能性の分析も提供します。