One-to-More: アテンション制御を用いた高忠実度のトレーニング不要な異常生成

arXiv cs.CV / 2026/3/20

📰 ニュースModels & Research

共有:

要点

O2MAG は、参照異常画像の自己注意を用いて、産業用異常検知のためのより現実的な異常を合成する、トレーニング不要の少数ショット異常生成手法として紹介される。
この手法は、自己注意を組み込んだ3つの並列拡散プロセスを活用し、前景と背景のクエリ混同を低減しつつ、テキスト誘導の異常合成を可能にする異常マスクを組み込む。
異常ガイド付き最適化が提案され、生成された異常をターゲット異常分布により適合させ、現実感とテキストの整合性を高める。
Dual-Attention Enhancement は、マスク領域での自己注意とクロス注意の双方を強化して、異常マスク内のかすかな異常生成を抑制する。広範な実験では、下流の異常検知（AD）タスクにおいて従来の最先端手法を上回ることが示されている。

要約：産業用異常検知（AD）は、正常画像が豊富で異常画像が不足している点が特徴である。下流のADタスクのために異常データを増強するための多数の少数ショット異常合成法が提案されているものの、ほとんどの既存アプローチは時間を要する学習を必要とし、実際の異常に忠実な分布を学習するのに苦労しており、その結果、このようなデータで訓練されたADモデルの有効性を制限している。これらの制限に対応するため、訓練不要の少数ショット異常生成法である O2MAG を提案します。これは、1つの参照異常画像における自己注意を利用して、より現実的な異常を合成し、効果的な下流の異常検知を支援します。具体的には、O2MAG は自己注意の付加を介して3つの並行拡散プロセスを操作し、異常マスクを組み込んで前景-背景のクエリ混乱を緩和し、テキスト誘導型の異常を、実際の異常分布に密接に適合させて合成します。エンコードされた異常テキストプロンプトと真の異常意味論との間の意味的ギャップを埋めるため、Anomaly-Guided Optimization（異常誘導最適化）を導入し、合成プロセスをターゲットとする異常分布に合わせて整合させ、現実的でテキストと整合した異常の生成へと導く。さらに、異常マスク内での微弱な異常の合成を抑制するため、生成時にデュアルアテンション強化（Dual-Attention Enhancement）を採用し、マスクされた領域における自己注意と交差注意の両方を強化する。広範な実験により O2MAG の有効性が検証され、下流の AD タスクにおいて従来の最先端手法より優れた性能を示している。

仕様駆動開発における自己改良エージェント

Dev.to

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

Reddit r/LocalLLaMA

M2.7のオープンウェイト、約2週間で公開予定

Reddit r/LocalLLaMA

MiniMax M2.7 ウェイト公開予定

Reddit r/LocalLLaMA

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

Reddit r/LocalLLaMA

One-to-More: アテンション制御を用いた高忠実度のトレーニング不要な異常生成

要点

関連記事

仕様駆動開発における自己改良エージェント

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

M2.7のオープンウェイト、約2週間で公開予定

MiniMax M2.7 ウェイト公開予定

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer