蒸留された大規模言語モデル主導の動的スパース専門家（エキスパート）活性化メカニズム

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、高いクラス間類似性や極端なスケール変動といった課題に対し、視覚認識を改善するための蒸留（Distilled）LLM駆動のスパース混合専門家（Sparse Mixture-of-Experts: DS-MoE）フレームワークを提案する。
DS-MoEは、テキストに導かれた動的ルーティングを用いて、テキストの意味論と欠陥固有の視覚パターンを整合させ、タスクに関連する専門家を適応的に活性化することで、クラス間の曖昧さを低減する。
リアルタイム推論を可能にしつつ多スケールの欠陥詳細を保持するために、軽量なMobileSAMエンコーダを使用する。
PCB、アルミ箔、モールド欠陥データセットでの実験により、DS-MoEはYOLO系を含む既存の純粋な視覚モデルを上回ることが示されている。報告されているmAP@0.5:0.95ではYOLOのバリアントに対する改善が示されている。
全体として、本研究は、計算コストの予算を維持しつつ、多様な実世界の欠陥データに対する汎化性能を高めるために、クロスモーダル意味論（テキスト＋視覚）とスパース専門家活性化を組み合わせている。

Abstract

階層間の類似性が高いこと、極端なスケールの変動、そして限られた計算予算が、多様な実世界データにわたる信頼性の高い視覚認識を妨げています。既存の視覚中心およびクロスモーダルのアプローチは、しばしば剛直な融合メカニズムや重いアノテーションのパイプラインに依存しており、その結果、汎化が十分に最適化されていません。そこで本研究では、Distilled Large Language Model（LLM）駆動 Sparse Mixture-of-Experts（DS-MoE）フレームワークを提案します。本フレームワークは、テキストに導かれる動的ルーティングと軽量なマルチスケール理解を統合します。DS-MoEフレームワークは、疎なMoEアーキテクチャによって、意味論的な関連性に基づきタスクに関連する専門家が適応的に活性化されることで、テキストの意味論を欠陥固有の視覚パターンと動的に整合させ、クラス間の曖昧さを解決します。軽量なMobileSAMエンコーダにより、マルチスケールの欠陥の詳細を保持しつつリアルタイム推論を可能にします。PCB、アルミ箔、およびモールド欠陥データセットに対する大規模な実験により、本フレームワークが既存の純粋な視覚モデルよりも優れた性能を達成することを示します。\textbf{DS-MoE}はBBMP、アルミ、PCBにおいて、それぞれ+13.9、+1.4、+2.0 ppの向上を達成し、mAP@ 0.5:0.95でYOLOv8/YOLOXを上回るとともに、精度と再現率も改善します。