生成AIを搭載するカメラにおける画像の真正性への対処

arXiv cs.CV / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

生成AIによる画像改変によりオンライン上の画像の真正性が重要な課題になっており、本論文は画像信号処理装置（ISP）内の深層学習モジュールによって変化したカメラ出力にもこの問題が及ぶ点を扱っています。
その多くはエッジ強調や質感の改善など無害ですが、AIベースのデジタルズームや低照度補正のような処理では画像の意味（セマンティクス）や解釈を変えてしまう可能性があり、ユーザーが気づきにくいと指摘しています。
提案手法は、画像固有のMLP（多層パーセプトロン）デコーダとモダリティ固有のエンコーダを共同最適化することで、「幻覚（hallucinated）前」の“unhallucinated”な画像を復元します。
この手法は撮影後に適用でき、カメラISPへのアクセスを必要とせず、エンコーダ／デコーダは約180KBと軽量なため、JPEGやHEICといった一般的な形式のメタデータとして保存可能です。

要旨: 生成的AI（GenAI）手法がカメラ画像をフォトリアルに改変できる能力によって、オンラインで共有される画像の真実性に対する関心が高まっている。興味深いことに、私たちのカメラで直接撮影された画像は、真正で忠実であると見なされる。しかし、カメラの撮影時ハードウェア――すなわち画像信号処理装置（ISP）――への深層学習モジュールの統合が進むにつれて、カメラが直接出力する画像に幻覚的（ハルシネーション）な内容が含まれる可能性が生じてきた。撮影時の幻覚的な画像内容は、強調されたエッジやテクスチャのように典型的には良性であるが、AIベースのデジタルズームや低照度の画像強調といった特定の操作では、幻覚によって画像内容の意味論や解釈が変わり得る。その結果、ユーザは自分のカメラ画像内の内容が真正ではないことに気づかない可能性がある。本論文は、画像内容の誤解釈を避けるために、ユーザがカメラ画像の「幻覚のない（unhallucinated）」バージョンを復元できるようにすることで、この問題に取り組む。我々のアプローチは、画像固有の多層パーセプトロン（MLP）デコーダと、モダリティ固有のエンコーダを最適化することによって機能し、カメラ画像が与えられたときに、幻覚的な内容が付加される前の画像を復元できるようにする。エンコーダとMLPはそれ自体で完結しており、カメラのISPにアクセスする必要なく、撮影後に画像へ適用できる。さらに、エンコーダとMLPデコーダは必要な保存容量がわずか180 KBのみであり、JPEGやHEICといった標準的な画像フォーマット内のメタデータとして容易に保存できる。