幸運な高ダイナミックレンジのスマートフォン画像撮影

arXiv cs.CV / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、人間の目が知覚できる約20ストップのダイナミックレンジに対し、スマートフォンのセンサーが約12ストップにとどまるというギャップを背景に、ハンドヘルドで撮影しダイナミックレンジを約3〜5ストップ拡張できるHDR手法を提案している。
提案手法は、モバイル端末上で動かせる軽量ネットワークを用い、ブラケット露光の線形RAW画素に対して間接的に処理することで、出力の各画素を近傍の入力画素の凸結合（露光補正込み）として生成し、近年の深層画像合成ネットワークにありがちな「幻覚」アーティファクトを抑える。
合成画像だけでなく、未見の実際のスマートフォンのブラケット画像でも検証し、スマートフォン撮影に対するゼロショットの汎化が確認された。
推論は反復的なアーキテクチャで構成され、ブラケット入力写真の枚数を任意に扱え（例：3〜9枚）、訓練は合成キャプチャのみを用いるにもかかわらず、複数カメラからの実画像へ一般化できることが示されている。
さらに、その訓練スキームにより他の最先端HDR手法も、元の事前学習モデルと比べて改善されることが報告されている。

要旨: 人間の目はダイナミックレンジを実に20段階知覚できますが、スマートフォンのカメラセンサーは数十年にわたる研究にもかかわらず、依然としておよそ12段階に制限されています。高ダイナミックレンジ（HDR）画像のキャプチャおよび処理に関するさまざまな手法が提案されてきましたが、実際には、手持ち撮影においてダイナミックレンジを3〜5段階拡張することができます。本論文では、手持ちのスマートフォンカメラで、かつモバイル端末上で動作可能な軽量ネットワークに適した形で、ダイナミックレンジを頑健に捉えるアプローチを提案します。提案手法は、ブラケット露光された状態での線形の生（raw）ピクセルに対して間接的に処理を行います。最終的なHDR画像のすべてのピクセルは、露光に応じて調整された近傍内の入力ピクセルの凸結合であり、近年の深層画像合成ネットワークに典型的に見られる幻覚（ハルシネーション）アーティファクトを回避します。本システムを、合成画像と未見の実際のブラケット画像の両方で検証し、スマートフォンのカメラ撮影に対して本手法がゼロショットで一般化することを確認します。反復推論（inference）アーキテクチャは任意の数のブラケット入力写真を処理可能であり、3〜9枚の画像を含むキャプチャスタックの例を示します。学習プロセスは合成キャプチャのみに依存していますが、複数のカメラから撮影された未見の実写真へと一般化します。さらに、この学習スキームが、他のSOTA手法をそれぞれの事前学習版と比較して改善することも示します。