Liquid AI、LFM2.5-VL-450Mをリリース――240msで実現する構造化された視覚理解

Reddit r/LocalLLaMA / 2026/4/9

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Liquid AIは、エッジ展開を対象とした視覚言語モデル「LFM2.5-VL-450M」をリリースした。512×512の画像処理を約240msで行い、約4 FPSの動画ストリームに適している。
  • このモデルは「LFM2-VL-450M」を改良しており、バウンディングボックス予測の追加、9言語にまたがる多言語の視覚理解(報告されているMMMBスコアの向上)および関数コーリング(function-calling)対応を備える。
  • マルチステージの検出器/分類器に加えてヒューリスティックを組み合わせる従来の仕組みではなく、単一のオンデバイス処理パスで物体のローカライズ、文脈に基づく推論、構造化出力生成を行うことで、生産向けのビジョン・パイプラインをシンプルにすることを目指している。
  • LFM2.5-VL-450Mは、NVIDIA Jetson Orin、Samsung S25 Ultra、AMD 395+ Maxなどのデバイスで動作し、Hugging FaceおよびLiquid AIの配信チャネルを通じてオープンウェイトとして提供される。
  • リリースでは、HFのチェックポイントと関連ブログ記事によりすぐに利用可能となり、開発者がエッジ・ハードウェア上で構造化された視覚理解を評価し、統合できるようになる。
Liquid AI releases LFM2.5-VL-450M - structured visual understanding at 240ms

本日、エッジ展開向けとして最も高性能なビジョン-言語モデルである LFM2.5-VL-450M をリリースします。512×512 の画像を 240ms で処理し、4 FPS の動画ストリームの各フレームについて推論するのに十分な速さです。これは LFM2-VL-450M をベースに、次の 3 つの新しい能力を追加したものです:

  • バウンディングボックス予測(RefCOCO-M で 81.28)
  • 9 言語にわたる多言語ビジュアル理解(MMMB: 54.29 → 68.09)、および
  • ファンクションコーリングのサポート。

多くの実運用(プロダクション)向けビジョンシステムは、依然としてマルチステージです。検出器、分類器、さらにその上にヒューリスティック(経験則)ロジックを重ねます。このモデルはそれを 1 パスで実現します:

  • 物体の特定
  • 文脈の推論
  • 構造化された出力を直接デバイス上で返すこと。

Jetson Orin、Samsung S25 Ultra、AMD 395+ Max で動作します。オープンウェイトで、現在 Hugging Face、LEAP、そして当社の Playground で利用可能です。

HF モデルチェックポイント:https://huggingface.co/LiquidAI/LFM2.5-VL-450M
ブログ記事:https://www.liquid.ai/blog/lfm2-5-vl-450m

投稿者 /u/PauLabartaBajo
[link] [comments]