要旨: 生成モデルとマルチモーダルなコンテンツ編集技術の急速な発展に伴い、合成画像検出(SID)が直面する主要な課題は、未知の生成ソースに対する分布間一般化です。近年、大規模な画像-テキスト整合の事前学習によって豊かな視覚的事前知識を獲得する視覚基盤モデル(VFM)が、SIDの一般化能力を高める有望な技術的手段として注目されています。しかし、既存のVFMベース手法は適応戦略が比較的粗く、次のような傾向があります。すなわち、多くの場合、単にVFMの最終層表現をそのまま用いるか、あるいは複数層の特徴を単純に融合するだけであり、転用可能な偽造手がかりを捉えるための最適な表現階層を明示的にモデル化できていません。一方で、VFMを直接微調整することでタスク適応を高められる可能性はあるものの、それはオープンセット一般化を支えるマルチモーダル事前学習構造を損なう恐れもあります。このタスク固有の緊張関係に対処するために、我々はSIDに対するVFM適応を共同最適化問題として再定式化します。すなわち、偽造識別に関する情報を運ぶのにより適した重要な表現層を特定することに加え、タスク知識の注入によって事前学習構造にもたらされる擾乱を制約する必要があります。以上に基づき、我々は固有重要度知覚(intrinsic importance perception)を中心とするSIDフレームワークI2Pを提案します。I2Pはまず、SIDにとって最も識別的な重要層表現を適応的に同定し、次に、低感度のパラメータ部分空間内でタスク駆動によるパラメータ更新を制約することで、タスク特異性を向上させつつ、事前学習表現の転用可能な構造を可能な限り保持します。
固有の重要性認識による適応的フォレンジック特徴リファインメント
arXiv cs.CV / 2026/4/21
📰 ニュースModels & Research
要点
- この論文は、合成画像検出(SID)における課題、すなわち未知の生成元からの画像に対するクロスディストリビューション汎化に焦点を当てています。
- 画像–テキストの事前学習による事前知識を活かしてSIDの改善が期待される一方で、VFMベース手法の既存の適応は粗く、最適な表現階層を明示的に扱えていないと述べています。
- 著者らはVFM適応を、(1)改ざんを識別するのにより適した表現レイヤーを特定することと、(2)タスク知識注入による事前学習構造の攪乱を制約することの共同最適化として再定式化しています。
- その上で、I2P(Intrinsic Importance Perception)を提案し、SIDに最も識別的なクリティカルな層表現を適応的に選び、低感度のパラメータ部分空間内でタスク駆動の更新を行うことで、転移可能性を可能な限り保持しつつタスク特異性を高めます。
- 全体として、未知の生成元に対してVFMベースSIDの性能を高める、よりきめ細かく構造を保つ適応戦略が主な貢献です。
関連記事

Agent Package Manager(APM):再現可能なAIエージェントのためのDevOpsガイド
Dev.to

実開発でClaude、GPT-4o、Geminiをベンチマークして学んだ3つのこと
Dev.to

ARPAのSkillware & Rooms(AI/ML/Python)でオープンソースの貢献者を募集
Dev.to
本番のLLMがツールのスキーマ制約を体系的に破ってUI機能を“発明”してしまう—約2,400メッセージで観測[D]
Reddit r/MachineLearning
AIシステムが回答途中でランダムにフランス語へ切り替わってしまう問題—原因が分かるまで時間がかかった
Reddit r/artificial