Jetsonで5つの小型マルチモーダルモデルを実行:最速が最良のベースラインとは限らない

Dev.to / 2026/6/18

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者はWearEdge Proという、スマートグラス型のウェアラブルで現場の画像を取得し、チャットではなく「構造化されたアクションカード」をローカルJetsonから返す産業向けエッジAIランタイムを開発している。
  • Jetson上で5つの小型マルチモーダルモデルを同一のプロンプトと画像で比較し、ゲートウェイ予算(画像トークン560)を基準に評価した(さらにQwen2.5-VLはグラウンディング改善のため画像トークン1024の追加パスあり)。
  • Gemma 4 E2Bが総合的に最も安定したベースラインとなり「最良の製品ベースライン」とされた一方、Qwen2.5-VL-3Bは最も強い対抗(challenger)で、変更切替のOCRやIQCの欠陥スコアリングが特に優れていた。
  • SmolVLM2-2.2Bは最速だったが、現場で必要な根拠に基づくガイダンスが弱く、変更切替や作業指示ではプレースホルダーのような項目が出ることが多かった。
  • InternVL3-2Bはトークン速度だけでは不十分で、低いコンテキストではタスクの失敗が発生し、完了しても安全性に懸念のある表現が見られたため、ベースラインとしては不向きと結論づけている。

この記事の続きは原文サイトでお読みいただけます。

原文を読む →