WaferSAGE:合成データ生成とルーブリックに導かれた強化学習による大規模言語モデル駆動のウエハ欠陥解析

arXiv cs.AI / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • WaferSAGEは、半導体製造における領域特化の検査タスクとして、ウエハ欠陥のビジュアル質問応答を行うフレームワークで、小型の視覚言語モデルを用います。
  • ラベル付きデータ不足に対応するため、ノイズのあるラベルをクレンジングし、欠陥の詳細な記述を生成して評価ルーブリックに変換する、3段階の合成データ生成パイプラインを提案します。
  • ルールベースの指標とLLM-Judgeスコアを組み合わせ、ベイズ最適化で両者を整合させることで、自動評価の信頼性を高めます。
  • curriculumベースの強化学習に、Group Sequence Policy Optimization(GSPO)とルーブリック整合型の報酬を用い、4BパラメータのQwen3-VLが高い性能(6.493)を示しつつオンプレミス配備を可能にします。
  • 著者らは、領域特化の学習を適切に行った小型モデルが、特殊な産業ビジュアル理解の領域では大手の独自大型モデルを上回り得ると主張し、プライバシー保護と低コスト配備の道筋を示しています。

要旨: 半導体ウェハ欠陥のビジュアル質問応答を、小型の視覚言語モデルで行うための枠組みであるWaferSAGEを提案します。半導体製造におけるデータ不足に対処するため、精密な評価のための構造化ルーブリック生成を組み込んだ、3段階の合成パイプラインを提案します。限られたラベル付きウェハマップから出発し、クラスタリングに基づくクリーニングによってラベルのノイズを除去した後、視覚言語モデルを用いて包括的な欠陥記述を生成し、それらを構造化された評価ルーブリックの基準へと変換します。これらのルーブリックは、欠陥タイプの同定、空間分布、形態、および根本原因分析にわたる網羅性を確保しながら、VQAペアの合成を導きます。
私たちのデュアル評価フレームワークは、ベイズ最適化によってルールベースの指標とLLM-Judgeスコアを整合させ、信頼できる自動評価を可能にします。Group Sequence Policy Optimization(GSPO)と、ルーブリックに整合した報酬によるカリキュラムベースの強化学習を通じて、4BパラメータのQwen3-VLモデルは6.493のLLM-Judgeスコアを達成し、Gemini-3-Flash(7.149)に非常に近づきつつ、完全なオンプレミス展開を可能にします。専門領域に特化した学習を行った小型モデルが、専用の大規模モデルを上回り得ること、そして半導体製造においてプライバシーを保護し、コスト効率の高い展開を実現する実行可能な道筋を示すことを、私たちは実証します。