ROSE: 副作用を考慮した動画物体除去の新手法とベンチマーク ROSE: 副作用を考慮した動画物体除去の新手法とベンチマーク 2025年09月25日 LLM-Paper

AI-SCHOLAR / 3/12/2026

📰 NewsModels & Research

共有:

Key Points

動画中の物体除去に加え、影や反射、光源などの副作用も同時に除去する新しい手法ROSEを提案。
Unreal Engineを用いて合成データを作成し、拡散モデルに差分マスク予測を導入して学習させる技術を採用。
新しいベンチマークROSE-Benchで従来法を大幅に上回る性能と高い汎化性を実証。
物体除去技術の精度向上により、動画編集や映像処理の効率改善が期待される。
研究成果はarXivで公開されており、実践的応用に向けた研究動向として重要な位置付け。

ROSE: 副作用を考慮した動画物体除去の新手法とベンチマーク

LLM-Paper 2025年09月25日

3つの要点
✔️ 動画中の物体除去に加え、影・反射・光源など副作用も同時に消去する手法を提案
✔️ Unreal Engineで合成データを作成し、拡散モデルに差分マスク予測を導入して学習
✔️ 新ベンチマークROSE-Benchで検証し、従来法を大幅に上回る性能と汎化性を示した

ROSE: Remove Objects with Side Effects in Videos
written by Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao
(Submitted on 26 Aug 2025)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

概要

本研究は、動画中の物体除去において、物体そのものだけでなく、その存在によって生じる副作用（影・反射・光・透過・鏡像など）を同時に消去することを目的としています。

従来の動画インペインティング手法は物体そのものの削除には有効でしたが、影や反射といった周囲環境への影響を十分に処理できず、不自然な映像を生成してしまう問題がありました。
その背景には、こうした副作用を含むペア動画データ（物体あり／なし）が不足しているという課題があります。

そこで著者らは、Unreal Engineを用いた自動レンダリングパイプラインを構築し、物体の副作用を忠実に再現する大規模な合成データセットを作成。
提案手法ROSEは拡散変換器ベースの動画インペインティングモデルであり、動画全体を入力として副作用を特定する点に特徴があります。

さらに、差分マスク予測による明示的な監督信号を導入し、副作用領域を高精度に捉えることを可能にしました。
加えて、ROSE-Benchという新たなベンチマークを構築し、多様な副作用を含むシナリオで包括的に評価。

実験の結果、ROSEは既存手法を大幅に上回る性能を示し、現実の動画に対しても高い汎化能力を持つことが確認されました。

提案手法

提案手法ROSEは、拡散モデルとトランスフォーマーを基盤とした動画インペインティング手法です。

従来手法はマスク領域をゼロ値で置換して学習する「mask-and-inpaint」方式を採用していましたが、この方法では物体の副作用領域を正確に特定できませんでした。

ROSEでは動画全体を入力として参照し、物体とその環境との相互作用をモデル内部の注意機構に学習させる「reference-based erasing」方式を採用。
これにより、影や反射といった副作用も自然に検出・除去することが可能となります。

また、実運用を想定し、粗い矩形や点注釈など多様なマスク精度を模擬する「マスク拡張」手法を導入。
さらに、オリジナル動画と物体削除後の動画との差分から得られる「difference mask」を学習に利用することで、副作用領域の明示的な局所化を実現しました。
これにより、ROSEは物体そのものだけでなく、環境への影響を正確に把握して修復することができます。

最終的な損失関数は拡散復元損失とマスク予測損失の組み合わせで設計され、両者のバランスによってモデルが安定的に学習するよう調整されています。

実験

実験ではまず、Unreal Engineで生成した16,678組の合成動画ペアを用いて学習を行いました。
これらは都市や自然環境など多様なシーンにおいて、90フレーム・1080p解像度で作成され、影・反射・光源・透過・鏡像といった副作用を網羅しています。

評価には、新たに構築したROSE-Benchを使用。
これは合成データに加え、既存の動画セグメンテーションデータセットDAVISを利用して現実的な評価用ペアを作成し、さらに実際の動画を用いた非ペア評価も含みます。

比較対象としては、DiffuEraserやProPainterなどの代表的手法を選定。
結果として、PSNR・SSIM・LPIPSといった定量指標でROSEは既存手法を大幅に上回り、特に光源や鏡像といった難易度の高い副作用でも優れた性能を発揮しました。

また、VBench指標を用いた実動画評価においても、背景の一貫性や動きの滑らかさで高いスコアを記録。
さらに、アブレーション研究により、reference-based erasing、マスク拡張、difference mask予測の各要素が性能向上に有効であることが確認されています。

総じて、ROSEは物体除去と副作用除去を同時に実現する最先端の手法として、従来の限界を超える結果を示しました。

この記事に関するカテゴリー

LLM-Paper

nakata

Co-Activation Pattern Detection for Prompt Injection: A Mechanistic Interpretability Approach Using Sparse Autoencoders

Reddit r/LocalLLaMA

How to Train Custom Language Models: Fine-Tuning vs Training From Scratch (2026)

Dev.to

KoboldCpp 1.110 - 3 YR Anniversary Edition, native music gen, qwen3tts voice cloning and more

Reddit r/LocalLLaMA

Qwen3.5 Knowledge density and performance

Reddit r/LocalLLaMA

I think I made the best general use System Prompt for Qwen 3.5 (OpenWebUI + Web search)

Reddit r/LocalLLaMA

ROSE: 副作用を考慮した動画物体除去の新手法とベンチマーク ROSE: 副作用を考慮した動画物体除去の新手法とベンチマーク 2025年09月25日 LLM-Paper

Key Points

ROSE: 副作用を考慮した動画物体除去の新手法とベンチマーク

概要

提案手法

実験

Related Articles

Co-Activation Pattern Detection for Prompt Injection: A Mechanistic Interpretability Approach Using Sparse Autoencoders

How to Train Custom Language Models: Fine-Tuning vs Training From Scratch (2026)

KoboldCpp 1.110 - 3 YR Anniversary Edition, native music gen, qwen3tts voice cloning and more

Qwen3.5 Knowledge density and performance

I think I made the best general use System Prompt for Qwen 3.5 (OpenWebUI + Web search)

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer