| 本日、エッジ展開向けとして最も高性能なビジョン-言語モデルである LFM2.5-VL-450M をリリースします。512×512 の画像を 240ms で処理し、4 FPS の動画ストリームの各フレームについて推論するのに十分な速さです。これは LFM2-VL-450M をベースに、次の 3 つの新しい能力を追加したものです:
多くの実運用(プロダクション)向けビジョンシステムは、依然としてマルチステージです。検出器、分類器、さらにその上にヒューリスティック(経験則)ロジックを重ねます。このモデルはそれを 1 パスで実現します:
Jetson Orin、Samsung S25 Ultra、AMD 395+ Max で動作します。オープンウェイトで、現在 Hugging Face、LEAP、そして当社の Playground で利用可能です。 HF モデルチェックポイント:https://huggingface.co/LiquidAI/LFM2.5-VL-450M [link] [comments] |
Liquid AI、LFM2.5-VL-450Mをリリース――240msで実現する構造化された視覚理解
Reddit r/LocalLLaMA / 2026/4/9
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- Liquid AIは、エッジ展開を対象とした視覚言語モデル「LFM2.5-VL-450M」をリリースした。512×512の画像処理を約240msで行い、約4 FPSの動画ストリームに適している。
- このモデルは「LFM2-VL-450M」を改良しており、バウンディングボックス予測の追加、9言語にまたがる多言語の視覚理解(報告されているMMMBスコアの向上)および関数コーリング(function-calling)対応を備える。
- マルチステージの検出器/分類器に加えてヒューリスティックを組み合わせる従来の仕組みではなく、単一のオンデバイス処理パスで物体のローカライズ、文脈に基づく推論、構造化出力生成を行うことで、生産向けのビジョン・パイプラインをシンプルにすることを目指している。
- LFM2.5-VL-450Mは、NVIDIA Jetson Orin、Samsung S25 Ultra、AMD 395+ Maxなどのデバイスで動作し、Hugging FaceおよびLiquid AIの配信チャネルを通じてオープンウェイトとして提供される。
- リリースでは、HFのチェックポイントと関連ブログ記事によりすぐに利用可能となり、開発者がエッジ・ハードウェア上で構造化された視覚理解を評価し、統合できるようになる。

