TRIMMER：自己教師あり強化学習による動画要約の新たなパラダイム

arXiv cs.CV / 2026/5/5

📰 ニュースModels & Research

共有:

要点

本論文では、ラベル付きデータが限られる状況でも、簡潔かつ意味的に妥当な動画要約を生成するための自己教師あり強化学習フレームワーク「TRIMMER」を提案します。
TRIMMERは2段階で学習し、まず自己教師あり学習で頑健な表現を獲得した後、情報理論に基づく報酬関数で導かれる強化学習により時空間的なフレーム選択を行います。
類似度ベースの目的関数に代えて、エントロピーに基づく指標を用いることで、長期的な時間ダイナミクスや意味の多様性をより適切に捉えられるようにしています。
報酬は選択されたフレームのインデックスに直接基づいて計算されるため、計算コストを抑えてスケーラブルに運用しやすくなります。
標準ベンチマークでの実験では、TRIMMERが自己教師あり／教師なし手法の中で最先端の性能を示し、強力な教師ありアプローチとも競争力があることが示されています。

要旨: 警備、教育、ソーシャルメディアなどの領域にまたがってビデオコンテンツが急速に増加したことで、効率的なコンテンツ理解の重要性がますます高まっています。ビデオ要約は、この課題に対して、簡潔でありながら意味的に有意味な表現を生成することで取り組みます。しかし、既存の手法はしばしば高価な手作業による注釈に依存しており、領域をまたいだ汎化が難しいだけでなく、複雑なアーキテクチャによって計算コストも大きくなりがちです。さらに、教師なしおよび弱教師ありの手法は、長期の時間的依存関係や意味構造を捉える点で、教師あり手法に比べて典型的に性能が劣ります。本研究では、ビデオ要約のための新しい自己教師あり強化学習フレームワークであるTRIMMER（Temporal Relative Information Maximization for Multi-objective Efficient Reinforcement）を提案します。TRIMMERは2段階で動作します。まず自己教師あり学習によって頑健な表現を学習し、次に情報理論に基づく報酬関数によって導かれた強化学習により、時空間の意思決定を行います。類似性ベースの目的に依存する先行手法とは異なり、本手法では高次の時間動態と意味的多様性を捉えるためにエントロピーに基づく指標を導入し、さらに計算効率を高めるために、選択されたフレーム指数に対して直接報酬を計算します。標準ベンチマークでの大規模な実験により、TRIMMERは教師なしおよび自己教師ありの手法の中で最先端の性能を達成しつつ、主要な教師ありアプローチとも競争力のある結果を示すことが確認され、スケーラブルで汎用的なビデオ要約に対する有効性が裏付けられます。