| みなさんこんにちは、 アプリのスクリーンショットからUIアイコンを検出するために、ローカルモデルを使う小さな個人的ベンチマークを行いました。英語は母語ではないので、文法上の間違いがあればすみません!似たようなことをしている人の参考になればと思い、見つけたことを共有したかっただけです。 モデル(量子化なし):
アプローチ:アプリのスクリーンショットをLLMに入力し、UIアイコンを認識してbbox_2dの座標を返すように依頼します。座標を返してくれたら、supervisionを使って画像に赤いバウンディングボックスを描画します。最後に、結果を目視で手作業により確認します。 セットアップには、オフライン推論を行う最新のvLLM v0.19.1を使用しました。最も確信のある出力を得たいので、開始時のtemperatureは0に設定しました。モデルが0個のアイコンを返す場合は、temperatureを徐々に上げます:0 -> 0.3 -> 0.6 -> 0.9。 全体結果:全体として、このタスクではDenseモデルのほうがMoEモデルよりずっと良いです。順位は次のとおりです:Qwen3.5 > Qwen3.6 ≈ Gemma4 いくつか具体的な所見:
詳細なvllmパラメータは以下です: 最近、ローカルモデルでUI要素の検出を試した人はいますか?より良いバウンディングボックスを得るためのコツがあれば知りたいです。 [link] [comments] |
Qwen3.5、Qwen3.6、Gemma4によるUIアイコン検出
Reddit r/LocalLLaMA / 2026/4/19
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- この投稿では、アプリのスクリーンショットからUIアイコンを検出するために、bbox_2d座標を返すローカルのマルチモーダルLLMを使った小規模ベンチマークを紹介しています。
- 手法は、スクリーンショットをLLMに入力して座標を取得し、supervisionで赤いバウンディングボックスを画像上に描画して、結果を目視で確認するという流れです。
- 非量子化のローカルモデルとvLLM 0.19.1を用いたオフライン推論により、このタスクではMoEよりもDenseモデルの方が良いという結論が示されています。
- ランキングは「Qwen3.5 > Qwen3.6 ≈ Gemma4」で、Cursor IDEの例ではGemma4がアイコンを1つも検出できなかったり、PhotoshopではQwen3.6が画面全体を“巨大な1つのアイコン”として誤認するなどの具体例が挙げられています。
- さらに、生成温度を0から開始し、アイコンが返ってこない場合は0→0.3→0.6→0.9へ段階的に上げて検出の回復を試みています。




