普遍的なショット言語理解ソリューションの探索
arXiv cs.LG / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文はSLU-SUITEを紹介します。これは、六つの映画に基づく六つの次元を横断する33タスクにわたり、49万件の人間注釈付きQAペアを含む大規模なトレーニングおよび評価スイートです。
- VLMベースのショット言語理解(SLU)の限界を、モデルとデータの観点の双方から分析し、普遍的なSLUソリューションとしてUniShotとAgentShotsを提案します。
- UniShotは動的にバランスを取ったデータ混合を通じて汎用モデルを訓練し、AgentShotsはプロンプトルーティングされた専門家クラスタを用いてピークディメンションの性能を最大化します。
- 実験の結果、提案されたモデルはドメイン内タスクでタスク特化型アンサンブルを上回り、ドメイン外タスクではトップクラスの商用VLMを22%上回りました。
