模倣から直感へ: オープンインスタンス動画分類における内在的推論

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、模倣を超えた内在的推論へ移行することで、現実世界データにおける大規模なクラス内変動と分布シフトに対処するオープンインスタンス動画分類に取り組む。
DeepIntuitフレームワークを提案する。これは、推論能力を初期化するコールドスタートの教師付きアライメントから始まり、強化学習を介して推論の一貫性を高めるためにGroup Relative Policy Optimization（GRPO）で洗練させる。
直感的なキャリブレーション段階では、改良されたビジョン-ランゲージモデルが生成する内在的推論の痕跡に基づいて分類器を訓練し、分布不一致を生じさせることなく安定した知識移転を保証する。
実験結果は、オープンインスタンス動画分類が純粋な特徴模倣よりも内在的推論から大きく恩恵を受けることを示しており、プロジェクトは提供されたURLで利用可能です。

従来の動画分類モデルは、効果的な模倣者として、同質なデータ分布の状況で卓越している。しかし、現実世界の応用はしばしばオープンインスタンスの課題を呈し、クラス内変動は大きく複雑で、既存のベンチマークを超えている。従来の動画エンコーダーモデルはこれらの多様な分布に適合するのに苦労する一方で、ビジョン-ランゲージモデル（VLM）は優れた一般化を提供するが、その推論能力（直感）をこのようなタスクのために十分に活用していなかった。本稿では、このギャップを埋める内在的推論フレームワークを提案し、模倣から直感へとオープンインスタンス動画分類を進化させる。私たちのアプローチ、DeepIntuitは、推論能力を初期化するコールドスタートの監督付きアライメントから始まり、強化学習を通じて推論の一貫性を高めるためにGRPO（Group Relative Policy Optimization）で洗練させる。重要なのは、推論を正確な分類へ翻訳することであり、DeepIntuitは次に直感的なキャリブレーション段階を導入する。この段階では、改良されたVLMが生成する内在的推論の痕跡に基づいて分類器を訓練し、分布不一致を生じさせず安定した知識移転を保証する。広範な実験は、オープンインスタンス動画分類において、DeepIntuitが単なる特徴模倣を超え、内在的推論へと進化することから有意な利益を得ることを示している。我々のプロジェクトは https://bwgzk-keke.github.io/DeepIntuit/ で公開されている。