概要: 自己進化型のビデオ理解フレームワークにおける近年の進歩は、人手による注釈なしで自律的に学習できる可能性を示してきました。しかし、既存手法は、反復学習プロセス全体を通じた構造化されたガイダンスを欠いているため、最適化が十分に制御されていないことや、難易度の進行が制御されていないことがしばしば問題となります。これらの制限に対処するため、我々はCurEvoを提案します。CurEvoは、自己進化にカリキュラム学習を導入するカリキュラムガイド付き自己進化フレームワークであり、より構造化され、段階的に進むモデル改善を実現します。CurEvoは、タスクの難易度を動的に調整し、評価基準を洗練し、モデルの能力に応じてデータの多様性のバランスを取ります。これにより、学習の複雑さをモデルの能力に整合させる、カリキュラムガイド付きのフィードバックループを形成します。この原理に基づき、知覚、認識、理解の各次元にわたって質問生成と回答評価を同時に進化させる、多次元適応型QAフレームワークを構築します。これにより、首尾一貫した、かつ測定可能なカリキュラム進行が保証されます。こうした統合により、CurEvoは、弱く制御された自己進化を、自律的なビデオ理解のためのより構造化された学習プロセスへと変換します。7つのバックボーンにわたってCurEvoは、4つのVideoQAベンチマークにおいて、ベンチマーク精度と評価者ベースのセマンティックスコアの両方を一貫して改善し、ビデオ理解に対するカリキュラムガイド付き自己進化の有効性を検証しています。
CurEvo:ビデオ理解のためのカリキュラムガイド付き自己進化
arXiv cs.CV / 2026/4/30
📰 ニュースModels & Research
要点
- この論文は、アノテーション不要で自律的にビデオ理解を行うことを目指したカリキュラムガイド付き自己進化フレームワーク「CurEvo」を提案している。
- 従来手法が抱える、最適化の制御が弱いことや難易度進行が構造化されていないことを、モデルの能力に応じてタスク難易度・評価基準・データ多様性を動的に調整することで改善する。
- CurEvoは、知覚・認識・理解の各側面にまたがって質問生成と回答評価を同時に進化させる多次元の適応的QA枠組みを構築し、カリキュラム進行を一貫かつ測定可能に保つ。
- 7つのバックボーンに対する実験では、4つのVideoQAベンチマークでベンチマーク精度と評価者ベースのセマンティックスコアの両方が一貫して向上した。
- 全体として、本研究は自己進化を「学習の複雑さをモデルの現在の能力に合わせる」フィードバックループとして捉え直し、改善をより信頼性高く構造化することを示している。