CoGR-MoE:概念ガイド型のエキスパートルーティングと一貫した選択、柔軟な推論による視覚質問応答

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚質問応答に向けたMixture-of-Experts(MoE)フレームワーク「CoGR-MoE」を提案し、不安定なルーティングによる不一致を抑えつつ推論の柔軟性を維持することを目指します。
  • 学習段階で、解答候補の意味論(セマンティクス)を用いてエキスパート選択をガイドし、類似する質問タイプで起きる選択の不安定さを課題として扱います。
  • ルーティング後は、候補オプションの特徴を使って選択したエキスパートを再重み付けし、候補ごとの判別的な表現を生成します。
  • これらの候補レベル表現を候補間比較に活用し、コントラスト学習で最適化することで、複数のVQAタスクで強い性能を示しています。