要旨: 指示画像セグメンテーション(RIS)では、言語による説明に従って画像内の対象領域を正確にセグメント化することが必要であり、これは視覚と語言を統合するクロスモーダルなタスクである。既存のRIS手法は、性能を向上させるために大規模な視覚・語言のエンコーディングモデルを用いることが一般的であるが、その莫大なパラメータ規模は、計算資源が限られた状況での展開を大きく制限している。本論文では、この問題を解決するために、チャネル注意に導かれるクロスモーダル知識蒸留手法を提案する。この手法は、教師ネットワークによって学習された、視覚と語言の間の高次のきめ細かな相関だけでなく、各チャネルによって表現される意味要素間の相関も、生徒ネットワークへと転送する。従来のピクセル単位の関係蒸留と比較して、本手法は生徒が教師の知識を学習できるだけでなく、その独立した学習能力の一部も保持するため、学習バイアスの転移を緩和する。2つの公開データセットにおける実験結果により、提案する蒸留手法は推論時に追加のパラメータを導入せず、生徒モデルに対して顕著な性能向上を達成できることが示された。
参照画像セグメンテーションのためのチャネル注意誘導クロスモーダル知識蒸留
arXiv cs.CV / 2026/4/21
📰 ニュースModels & Research
要点
- 参照画像セグメンテーション(RIS)は、言語記述に基づいて画像内の対象領域を正確に切り分ける、視覚と言語を統合するクロスモーダル課題として説明されています。
- 本論文は、大規模なビジョン・言語モデルの計算資源制約による導入上の課題に対し、チャネル注意誘導型のクロスモーダル知識蒸留手法を提案しています。
- この手法は、教師モデルが学習した高次の微細なビジョン・言語相関に加えて、各チャネルで表される意味要素間の相関も学生モデルへ転送します。
- ピクセル単位の関係蒸留と比べて、教師の学習バイアスの転移を軽減しつつ、学生が独自に学ぶ能力を一部維持することを狙っています。
- 2つの公開データセットでの実験では、推論時に追加パラメータを導入せずに学生モデルの性能が大きく向上することが示されています。
関連記事

Agent Package Manager(APM):再現可能なAIエージェントのためのDevOpsガイド
Dev.to

実開発でClaude、GPT-4o、Geminiをベンチマークして学んだ3つのこと
Dev.to

ARPAのSkillware & Rooms(AI/ML/Python)でオープンソースの貢献者を募集
Dev.to
本番のLLMがツールのスキーマ制約を体系的に破ってUI機能を“発明”してしまう—約2,400メッセージで観測[D]
Reddit r/MachineLearning
AIシステムが回答途中でランダムにフランス語へ切り替わってしまう問題—原因が分かるまで時間がかかった
Reddit r/artificial