FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios
arXiv cs.CV / 4/10/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- FORGE は、実世界の 2D 画像と 3D 点群を組み合わせ、型番などの細かな製造ドメイン意味論で注釈したマルチモーダル評価用データセットを構築した。
- これを用いて製造タスク(ワークピース検証、構造表面検査、組立検証)に対し 18 の最先端 MLLM を評価し、大きな性能ギャップを明らかにした。
- ボトルネック分析の結果、従来の見方に反して主因は視覚グラウンディング不足ではなく、ドメイン固有知識の不足であることを示した。
- さらに注釈の構造化を学習資源として活用でき、3B パラメータ級のモデルを FORGE で教師あり微調整すると、保留シナリオで精度が最大 90.8%(相対)改善することを報告した。
Related Articles

Black Hat Asia
AI Business

GLM 5.1 tops the code arena rankings for open models
Reddit r/LocalLLaMA

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to

My Bestie Built a Free MCP Server for Job Search — Here's How It Works
Dev.to
can we talk about how AI has gotten really good at lying to you?
Reddit r/artificial