Jetsonで5つの小型マルチモーダルモデルを実行:最速が最良のベースラインとは限らない
Dev.to / 2026/6/18
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 著者はWearEdge Proという、スマートグラス型のウェアラブルで現場の画像を取得し、チャットではなく「構造化されたアクションカード」をローカルJetsonから返す産業向けエッジAIランタイムを開発している。
- Jetson上で5つの小型マルチモーダルモデルを同一のプロンプトと画像で比較し、ゲートウェイ予算(画像トークン560)を基準に評価した(さらにQwen2.5-VLはグラウンディング改善のため画像トークン1024の追加パスあり)。
- Gemma 4 E2Bが総合的に最も安定したベースラインとなり「最良の製品ベースライン」とされた一方、Qwen2.5-VL-3Bは最も強い対抗(challenger)で、変更切替のOCRやIQCの欠陥スコアリングが特に優れていた。
- SmolVLM2-2.2Bは最速だったが、現場で必要な根拠に基づくガイダンスが弱く、変更切替や作業指示ではプレースホルダーのような項目が出ることが多かった。
- InternVL3-2Bはトークン速度だけでは不十分で、低いコンテキストではタスクの失敗が発生し、完了しても安全性に懸念のある表現が見られたため、ベースラインとしては不向きと結論づけている。
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



