要旨: マルチモーダル大規模言語モデル(MLLM)は、文脈内学習(ICL)によって視覚タスクに適応し、これはデモンストレーションの品質に大きく依存します。支配的なデモンストレーション選択戦略は、教師なしk近傍(kNN)検索です。単純ではあるものの、この類似度重視のアプローチは、複雑な事実に基づく回帰タスクに対しては最適ではありません。タスクの出力全体にわたる範囲を捉えられず、冗長な例を選択してしまうためです。そこで本研究では、選択を逐次的な意思決定問題として再定式化し、最適なデモンストレーション集合を構築する強化学習エージェントを訓練する、デモンストレーションを選択するための学習(Learning to Select Demonstrations: LSD)を提案します。クエリ中心のTransformer Decoderを用いたデュエリングDQNにより、当該エージェントはMLLMの下流性能を最大化する方策を学習します。5つの視覚回帰ベンチマークにわたって評価した結果、重要な二分法が明らかになりました。すなわち、kNNは主観的な嗜好タスクでは依然として最適である一方で、LSDは客観的で事実に基づく回帰タスクにおいてベースラインを大きく上回ります。視覚的な関連性と多様性の両立により、LSDは回帰の境界をより適切に定義し、視覚ICLにおいて、学習された選択が厳密に必要となる状況を明らかにします。
視覚インコンテキスト・デモンストレーションの選択方法を学ぶ
arXiv cs.LG / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文はマルチモーダルLLMが視覚タスクにおいてインコンテキスト学習をどのように利用するかを分析し、一般的な教師なしkNNベースのデモンストレーション選択は、冗長な例を過剰に選んでしまうため、事実に基づく回帰(factual regression)では最適ではない可能性があると主張する。
- デモンストレーション選択を逐次的な意思決定問題として捉え直し、Learning to Select Demonstrations(LSD)を提案する。LSDは強化学習エージェントを訓練し、MLLMの下流性能を最大化するデモンストレーション集合を構築する。
- 提案するLSDシステムは、視覚的な関連性と多様性のバランスをとる方策を学習するために、クエリ中心のTransformerデコーダを用いたDueling DQNを利用する。
- 5つの視覚回帰ベンチマークにまたがる実験により、重要な結果が示される。kNNは主観的な嗜好タスクでは依然として最良だが、LSDは客観的で事実に基づく回帰タスクにおいてベースラインを大幅に上回る。
- 著者らは、学習されたデモンストレーション選択は、特定の視覚ICL設定において厳密に必要であり、特に回帰の境界を適切に定義する必要がある場合に当てはまると結論づけている。



