蒸留された大規模言語モデル主導の動的スパース専門家(エキスパート)活性化メカニズム
arXiv cs.CV / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、高いクラス間類似性や極端なスケール変動といった課題に対し、視覚認識を改善するための蒸留(Distilled)LLM駆動のスパース混合専門家(Sparse Mixture-of-Experts: DS-MoE)フレームワークを提案する。
- DS-MoEは、テキストに導かれた動的ルーティングを用いて、テキストの意味論と欠陥固有の視覚パターンを整合させ、タスクに関連する専門家を適応的に活性化することで、クラス間の曖昧さを低減する。
- リアルタイム推論を可能にしつつ多スケールの欠陥詳細を保持するために、軽量なMobileSAMエンコーダを使用する。
- PCB、アルミ箔、モールド欠陥データセットでの実験により、DS-MoEはYOLO系を含む既存の純粋な視覚モデルを上回ることが示されている。報告されているmAP@0.5:0.95ではYOLOのバリアントに対する改善が示されている。
- 全体として、本研究は、計算コストの予算を維持しつつ、多様な実世界の欠陥データに対する汎化性能を高めるために、クロスモーダル意味論(テキスト+視覚)とスパース専門家活性化を組み合わせている。




