広告

RawGen:カメラRAW画像生成の学習

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、テキストからカメラRAW画像(リニア、シーン参照)を生成し、さらにsRGBをカメラ固有のRAW表現へ逆変換するための、拡散(diffusion)ベースの枠組みRawGenを提案する。
  • RawGenは、大規模なRAWデータセットを収集することが難しいという動機に基づく。既存のRAWデータセットは限られており、特定のカメラハードウェアや固定された画像信号処理(ISP)パイプラインに結び付いていることが多いためである。
  • 写真のように仕上げられたsRGBではなく、物理的に意味のあるリニア出力を得るために、手法は潜在空間と画素空間の双方にまたがる特殊な処理を用いる。そして、複数のISP差分によって生じるsRGB表現を共通のシーン目標へと結び付ける、多対一の逆ISPデータセットで学習する。
  • 著者らは、条件付きdenoiser(ノイズ除去器)と、ISPが未知で多様である状況により適切に対応するための専用decoderを微調整し、従来の逆ISPアプローチと比べて、カメラ中心のリニア復元の性能を高める。
  • また、RawGenが、下流の低レベル視覚タスクに対してRAW復元そのもの以外にも役立つ、スケーラブルなテキスト駆動型の合成RAWデータを生成できることを報告している。

Abstract

カメラはシーン参照のリニアな生画像を取得し、搭載された画像信号プロセッサ(ISP)によって、表示参照の8ビットsRGB出力へと処理します。生データは低レベル視覚タスクに対してより忠実ですが、大規模な生データセットの収集は依然として主要なボトルネックです。既存のデータセットは限られており、特定のカメラハードウェアに結び付いているためです。生成モデルはこの不足を解決する有望な手段を提供しますが、既存の拡散フレームワークは、物理的に整合したリニア表現を合成するようには設計されておらず、写真仕上げ済みのsRGB画像の合成に向けられています。本論文では、当方の知る限り、任意の目標カメラに対するテキストからの生生成(text-to-raw)と、sRGBから生への反転(sRGB-to-raw inversion)を可能にする最初の拡散ベースの枠組みとしてRawGenを提案します。RawGenは、大規模sRGB拡散モデルの生成的な事前知識(prior)を活用し、潜在空間とピクセル空間における特殊な処理を通じて、CIE XYZやカメラ固有の生表現などの物理的に意味のあるリニア出力を合成します。拡散モデルの学習データに含まれる、未知で多様なISPパイプラインおよび写真仕上げの効果に対処するため、複数のISPパラメータを用いて同一シーンから生成された複数のsRGBレンディションを、共通のシーン参照の目標へとアンカーする、many-to-oneの逆ISPデータセットを構築します。このデータセット上で条件付きデノイザと特殊なデコーダを微調整することで、RawGenはレンダリング・パイプラインを効果的に反転する、カメラ中心のリニア復元を獲得できます。さらに、RawGenが固定されたISPを仮定する従来の逆ISP手法に比べて優れた性能を示すことを実証します。加えて、RawGenのスケーラブルでテキスト駆動の合成データで学習パイプラインを拡張することが、下流の低レベル視覚タスクに有益であることを示します。

広告