Find, Fix, Reason:ビデオ推論のためのコンテキスト修復
arXiv cs.CV / 2026/4/20
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は「Find, Fix, Reason」として、質問はそのままに元動画へ最小限の不足スパイオ・テンポラルな証拠(エビデンス)を補うことで、ビデオ推論のための観測レベルのコンテキスト修復を提案しています。
- 凍結したツール統合ティーチャーモデルが欠けている依存関係を特定し、特定のタイムスタンプや領域などの“エビデンスパッチ”を提示し、それを学生モデルが使って再度回答して学習します。
- 学習はGroup Relative Policy Optimization(GRPO)に組み込まれたchosen-rolloutスキームで行い、トレーニングスタックへの最小変更で、因果的に意味のある方向へ探索を導きつつオンポリシー探索を維持することを狙っています。
- Robust Improvement Reward(RIR)を導入し、正答によるアウトカムの妥当性と、提示された証拠に整合した推論(ラショネール)を両方最適化する設計になっています。
- 関連ベンチマークで一貫した精度向上と強い汎化が得られたとされ、著者らはWebページとソースコードを公開予定です。



