ゼロショット学習のための相互因果セマンティック蒸留ネットワーク

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

共有:

要点

本研究は、ゼロショット学習における従来の一方向的な注意機構の限界を指摘し、視覚特徴と属性特徴間の意味的知識を蒸留する相互因果フレームワークを提案する。
MSDN++ は二つのサブネットから構成され、属性から視覚への因果的注意経路と視覚から属性への因果的注意経路を含み、視覚と属性の因果的結びつきを相互に学習させる。
セマンティック蒸留損失が訓練中に二つのサブネットが互いを教え合うよう導き、より信頼性の高いセマンティック表現を生み出す。
CUB、SUN、AWA2、FLO などのベンチマークデータセットで新たな最先端性能を達成し、強力なベースラインに対して顕著な改善を示している。

要約: ゼロショット学習（ZSL）は、サイド情報（例：属性）によって導かれるオープンワールドの中で未見のクラスを認識することを目的とします。その主要な任務は、見られたクラスにおける視覚特徴と属性特徴の間の潜在的意味知識をどのように推定するかであり、したがって見られたクラスから未見のクラスへの望ましい意味知識の転送を実現することです。先行研究は弱教師付きの枠組みの中で一方向性のアテンションを単純に用いて、偽りの（スパーリアス）かつ限定的な潜在意味表現を学習しますが、視覚特徴と属性特徴の間の intrinsic semantic knowledge（例：属性意味）を効果的に発見することに失敗します。これらの課題を解決するために、相互因果意味蒸留ネットワーク（MSDN++）を提案し、ZSLのための内在的かつ十分な意味表現を蒸留します。MSDN++は、属性 $\rightarrow$ 視覚の因果アテンションサブネット（属性ベースの視覚特徴を学習）と、視覚 $\rightarrow$ 属性の因果アテンションサブネット（視覚ベースの属性特徴を学習）から構成されます。因果アテンションは、2つのサブネットが因果的な視覚-属性の関連を学習し、因果的な視覚/属性学習を通じて信頼できる特徴を表現するよう促します。意味蒸留損失の指導の下、2つの相互アテンションサブネットは協調的に学習し、訓練プロセス全体で互いに教え合います。3つの広く用いられるベンチマークデータセット（例：CUB、SUN、AWA2、FLO）での広範な実験は、我々のMSDN++が強力なベースラインに対して顕著な改善をもたらし、新たな最先端の性能へ繋がることを示しています。

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

Reddit r/artificial

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

Reddit r/LocalLLaMA

ゼロショット学習のための相互因果セマンティック蒸留ネットワーク

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？