LiveMoments: リファレンス誘導拡散によるライブフォトでの再選択キー写真の復元

arXiv cs.CV / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

ライブフォトは高品質なキー写真と短い動画を保存するが、ユーザーが代替フレームをキー写真として再選択すると、写真のISPパイプラインのほうが動画のパイプラインより優れているため、目に見える画質低下が生じうる。
本論文は、オリジナルの高品質なキー写真を用いて、再選択されたフレームの品質を回復するリファレンス誘導復元フレームワーク「LiveMoments」を提案する。
LiveMomentsは2つの分岐を持つニューラルネットワークを用い、参照分岐がオリジナルのキー写真から構造・質感の手がかりを抽出し、それらの手がかりによりメイン分岐が再選択フレームを復元する。
統合型モーションアライメント（Motion Alignment）モジュールが、潜在表現レベルと画像レベルの両方における空間アライメントのためのモーション指針を提供し、特に高速運動や複雑な構造のシーンで有効となる。
実データおよび合成データのライブフォトに対する実験により、既存手法に比べて知覚品質と忠実度が向上し、コードはGitHubで公開されている。

要旨: ライブフォトは、貴重な撮影瞬間のダイナミクスを保持するために、高品質のキーフォトと短い動画クリップの両方を捉えます。ユーザーは、より良い表情やタイミングを捉えるために、キーフォトとして代替のフレームを選択することもありますが、これらのフレームでは、顕著な画質の劣化が見られることがしばしばあります。これは、写真撮影のISPパイプラインが、動画パイプラインに比べて大幅に高い画像品質を提供するためです。この品質ギャップは、再選されたキーフォトを強化するための専用の修復技術が必要であることを示しています。そこで本研究では、ライブフォトにおける再選されたキーフォト向けに設計した、参照ガイド付き画像修復フレームワークであるLiveMomentsを提案します。提案手法は、2つの分岐からなるニューラルネットワークを用います。すなわち、参照分岐が元の高品質キーフォトから構造情報とテクスチャ情報を抽出し、主分岐が参照分岐によって提供されるガイダンスを用いて再選されたフレームを修復します。さらに、潜在表現レベルと画像レベルの両方における空間アライメントのための運動（モーション）ガイダンスを組み込んだ統一Motion Alignmentモジュールを導入します。実データおよび合成のライブフォトに対する実験により、LiveMomentsは既存手法に比べて知覚品質と忠実度を大幅に向上させることが示されました。特に、急速な動きや複雑な構造を含むシーンで顕著です。コードは https://github.com/OpenVeraTeam/LiveMoments で公開しています。