正確な材料分類のためのファウンデーションモデルの力を活用する

arXiv cs.CV / 2026/3/19

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

本論文は、材料分類におけるデータ不足を解消するために、ビジョンと言語のファウンデーションモデルを活用するフレームワークを提案する。
物体の意味論と材料属性をプロンプト内で融合させることで、多様で高品質な材料中心の訓練データを生成し、自動ラベリングを行う堅牢な画像生成・自動ラベル付けパイプラインを導入する。
VLMから情報を蒸留する事前情報の組み込み戦略と、VLM由来の事前情報を用いて事前学習済みのビジョンモデルを共同で微調整するジョイントファインチューニング手法を追加する。これにより、一般化能力を維持しつつ材料固有の特徴へ適応する。
複数のデータセットでの実験は顕著な改善を示し、合成データが実世界の材料特性を効果的に捉え、事前情報が最終性能を向上させることを示す。著者らはソースコードとデータセットの公開を発表している。

要約: 材料分類は、コンピュータビジョンとグラフィックスにおける重要な課題として浮上しており、デジタルおよび現実世界の幅広い応用に対して正確な材料特性を割り当てることを支援しています。伝統的には画像分類タスクとして位置づけられてきましたが、この領域は注釈付きデータの不足により重大な課題に直面しており、訓練済みモデルの精度と一般化能力を制限しています。視覚と言語の基盤モデル（VLMs）における最近の進歩はこれらの問題に対処する有望な道を提供しますが、これらのモデルを活用した既存の解法は材料認識タスクで満足のいく結果を示していません。本研究では、データ制約を克服し分類精度を向上させるために、基盤モデルを効果的に活用する新しいフレームワークを提案します。私たちの手法は、二つの主要な革新を統合しています: (a) 物質中心の画像を含む多様で高品質な訓練データセットを作成し、テキストプロンプト内のオブジェクト意味論と材料属性を統合して自動的にラベルを割り当てる堅牢な画像生成・自動ラベリングパイプライン; (b) VLMから情報を蒸留する事前情報組み込み戦略と、VLM由来の事前情報とともに事前学習済みのビジョン基盤モデルを最適化するジョイントファインチューニング手法を組み合わせ、材料固有の特徴へ適応させつつ広範な一般化能力を保持する。広範な実験により、複数のデータセットで顕著な改善が示されています。我々の合成データセットは実世界の材料の特徴を効果的に捉えており、視覚-言語モデルからの事前情報の統合は最終的な性能を大幅に向上させます。ソースコードとデータセットは公開される予定です。