AI Navigate

視覚-テキスト手掛かりを用いた能動赤外線サーモグラフィーにおける認知欠陥分析へ向けて

arXiv cs.CV / 2026/3/12

📰 ニュースModels & Research

要点

  • CFRP の欠陥を認知するための新規の言語ガイド付きフレームワークを提案し、能動赤外線サーモグラフィーと視覚-言語モデルを用いて、巨大な訓練データセットを必要とせずにゼロショット欠陥理解と局在を実現します。
  • AIRT-VLM アダプターを導入し、熱画像データを事前学習済みのマルチモーダルエンコーダに合わせることで欠陥の視認性を高め、ドメインギャップを縮小します。
  • エネルギーの異なるレベルで欠陥を含む25の CFRP 検査シーケンスで検証を行い、従来の次元削減法と比較してSNRが10 dBを超える改善を示し、IoU が最大70%に達するゼロショット欠陥局在を実現しました。
  • 本研究は GroundingDINO、Qwen-VL-Chat、CogVLM の3つのVLMを評価し、モデル間の適用性と産業界におけるAI駆動NDEのスケーラブルな可能性を示しています。
能動赤外線サーモグラフィー(AIRT)は現在、AI技術が高性能の炭素繊維強化樹脂(CFRP)の内部欠陥解析に広く適用されつつあります。CFRPを検査するためのAIベースのAIRT手法を展開するには、ニューラルネットワークを訓練するための時間のかかる高価なCFRP検査シーケンスのデータセットを作成する必要があります。この課題に対処するため、本研究はAIRTと視覚-言語モデル(VLM)を用いたCFRPの認知欠陥分析の新規な言語ガイド付きフレームワークを提案します。従来の学習ベースのアプローチとは異なり、提案フレームワークは欠陥検出器の大規模な訓練データセットの作成を必要とせず、代わりに事前学習済みのマルチモーダルVLMエンコーダと軽量なアダプターだけに依存し、地下欠陥の生成的ゼロショット理解と局在を可能にします。事前学習済みのマルチモーダルエンコーダを活用することで、提案システムは熱画像パターンの生成的ゼロショット理解と地下欠陥の自動検出を実現します。サーモグラフィックデータとVLMを訓練するために用いられる自然画像との間にはドメインギャップが存在することを踏まえ、欠陥の視認性を高めつつ熱像ドメインをVLMの学習表現と揃えるAIRT-VLMアダプターを提案します。提案フレームワークは、具体的には GroundingDINO、Qwen-VL-Chat、CogVLM の3つの代表的なVLMを用いて検証されています。検証は、エネルギーの異なるレベルで衝撃を加えた25の CFRP 検査シーケンスで実施され、産業界の現実的な欠陥を反映しています。実験結果は、従来の熱画像の次元削減法と比較して AIRT-VLM アダプターが SNR を 10 dB 超える改善を達成するとともに、IoU 値が最大 70% に達するゼロショット欠陥検出を可能にすることを示しています。