微鏡画像からの自動粒径推定における基盤モデルとASTM金属組織標準の橋渡し

arXiv cs.CV / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、Cellpose-SAMを材料組織向けに適応した高密度インスタンスセグメンテーション手法に、トポロジーを考慮した勾配トラッキングとASTM E112 Jeffries平面計測モジュールを統合して、微鏡画像から標準化された粒径を推定する自動パイプラインを提案している。
  • 提案手法は、U-Net、プロンプト適応型の基盤セグメンテーションモデルMatSAM、視覚言語モデルQwen2.5-VL-7Bと比較ベンチマークされ、高密度な粒の計数や計測に必要な領域分離を維持できる点で、適応パイプラインが優れていることが示されている。
  • 出発時点の視覚言語モデルは、微鏡での局所的な空間推論や緻密なカウントに課題があり、MatSAMはドメイン固有のプロンプト生成にもかかわらず過分割の傾向が見られた。
  • 本手法は少数ショットでも性能が高く、学習データが2サンプルだけの場合でもASTMの粒径番号GをMAPE約1.50%まで低減して予測できる。
  • さらに、異なる目標粒数に対する頑健性実験により、ASTMで定められた50粒サンプリングが最小要件であることが実データで裏付けられている。

Abstract

顕微鏡画像から標準化された冶金学的指標を抽出することは、複雑な粒(グレイン)の形態と、教師ありセグメンテーションに対するデータ要求の大きさにより、依然として困難です。基礎的なコンピュータビジョンと実務的な冶金学的評価をつなぐために、本研究では、Cellpose-SAMを微細組織に適応させ、さらにトポロジ(位相)を考慮したグラディエント追跡を、ASTM E112のJeffries平面図法(プラニメトリック)モジュールと統合する、自動化された高密度インスタンスセグメンテーションおよび粒径推定のためのパイプラインを提案します。本手法を、古典的な畳み込みネットワーク(U-Net)、適応的なプロンプト提示を用いる視覚基盤モデル(MatSAM)、および最新の視覚言語モデル(Qwen2.5-VL-7B)と体系的にベンチマークします。評価の結果、汎用の視覚言語モデルは、高密度な顕微鏡カウントに必要な局所的な空間推論に苦戦する一方で、MatSAMはドメイン固有のプロンプト生成を行っているにもかかわらず過剰セグメンテーションに陥ることがわかりました。一方で、適応した本パイプラインはトポロジに基づく分離を確実に維持できます。さらに、段階的に縮小した学習分割にまたがる実験により、非常に優れたfew-shotスケーラビリティが示されます。提案システムは学習サンプル2つだけを用いて、ASTMの粒径数(G)を平均絶対パーセンテージ誤差(MAPE)1.50%まで低く予測でき、また、目標粒数が変化する条件での頑健性テストにより、ASTMの50粒サンプリング最小値が経験的に裏付けられます。これらの結果は、高精度で自動化された材料特性評価に対して、アプリケーションレベルで基盤モデルを統合することの有効性を示しています。本プロジェクトのリポジトリは https://github.com/mueez-overflow/ASTM-Grain-Size-Estimator で公開されています。