Jetsonで5つの小型マルチモーダルモデルを実行：最速が最良のベースラインとは限らない

Dev.to / 2026/6/18

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

著者はWearEdge Proという、スマートグラス型のウェアラブルで現場の画像を取得し、チャットではなく「構造化されたアクションカード」をローカルJetsonから返す産業向けエッジAIランタイムを開発している。
Jetson上で5つの小型マルチモーダルモデルを同一のプロンプトと画像で比較し、ゲートウェイ予算（画像トークン560）を基準に評価した（さらにQwen2.5-VLはグラウンディング改善のため画像トークン1024の追加パスあり）。
Gemma 4 E2Bが総合的に最も安定したベースラインとなり「最良の製品ベースライン」とされた一方、Qwen2.5-VL-3Bは最も強い対抗（challenger）で、変更切替のOCRやIQCの欠陥スコアリングが特に優れていた。
SmolVLM2-2.2Bは最速だったが、現場で必要な根拠に基づくガイダンスが弱く、変更切替や作業指示ではプレースホルダーのような項目が出ることが多かった。
InternVL3-2Bはトークン速度だけでは不十分で、低いコンテキストではタスクの失敗が発生し、完了しても安全性に懸念のある表現が見られたため、ベースラインとしては不向きと結論づけている。

この記事の続きは原文サイトでお読みいただけます。

AI Business

note

note

note

note