AI Navigate

絵画の鑑定と欠陥検出のための視覚言語ベースの専門家報告

arXiv cs.CV / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本論文は推論時に人間の介入を要しない完全自動の視覚言語モデル(VLM)を提案する。マルチモーダルなパルス活性赤外熱像法(AIRT)解析と、絵画の鑑定と欠陥検出のための構造化された自然言語レポーティングを組み合わせる。
  • 本手法は、主成分サーモグラフィー(PCT)、サーモグラフィ信号再構成(TSR)、パルス位相サーモグラフィー(PPT)を用いて熱シーケンスを処理し、異常マスクを統合してVLMの報告を導く合意セグメンテーションを形成する。
  • VLM は、異常の位置、熱挙動、考えられる物理的解釈を記述し、保存判断を説明可能とするための不確実性を明示的に示す報告を生成する。
  • 2つの象嵌細工品での評価は、一貫した異常検出と安定した、一般化可能な解釈を示し、サンプル間の再現性と文化遺産文脈における標準化された文書化の可能性を示唆する。

概要: 真正性と状態評価は保全判断の核心をなすが、熱画像出力の解釈と報告は依然として個別の手法に依存しており、専門家の裁量に大きく依存しているため、コレクション間の比較を複雑にし、保全文書への体系的統合を制限している。パルス型アクティブ赤外線熱画像法(AIRT)は、材料の不均質性、空隙、および過去の介入といった地下層の特徴に敏感である。しかし、アーティファクトの誤解、研究所間のばらつき、標準化され説明可能な報告フレームワークの欠如によって、そのより広い普及は制約されている。複数モーダルの熱画像処理技術は確立されているものの、それらを構造化された自然言語解釈と統合することは文化遺産分野ではまだ検討されていない。完全自動のサーモグラフィ-ビジョン-言語モデル(VLM)フレームワークを提示する。これは多モーダルAIRT解析とモダリティ対応のテキスト報告を組み合わせ、推論時には人間の介入を必要としない。熱シークエンスは主成分熱像法(PCT)、熱像信号再構成(TSR)、およびパルス位相熱像法(PPT)を用いて処理され、得られた異常マスクは複数の熱指標によって支持される領域を強調し、境界アーティファクトを緩和するコンセンサス分割へ統合される。統合された証拠はVLMに提供され、異常の場所、熱挙動、および妥当な物理的解釈を説明する構造化レポートを生成する一方で、不確実性と診断上の限界を明示的に認める。二つの象嵌細工に対する評価は、一貫した異常検出と安定した構造化解釈を示し、サンプル間の再現性と一般化可能性を示唆している。