AI Navigate

WebGPU 上で LFM2-VL を用いたブラウザ内のリアルタイム動画キャプション生成

Reddit r/LocalLLaMA / 2026/3/14

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • WebGPU と Transformers.js を用いて、ブラウザ内で完全にオフラインで動作する LFM2-VL モデルをリアルタイム動画キャプション生成に用いて実演します。
  • 著者は、キャプションを読みやすく保つためにフレーム取得遅延を120ms必要としたと記述し、キャプションのジャンプを減らす UX 改善を計画していると述べています。
  • HuggingFace Spaces でソースコード付きのオンラインデモが利用でき、気軽に実験できます。
  • これは、端末上での処理とウェブベースのデプロイを特徴とする、ブラウザー中心の AI 推論ワークフローを示しています。
\"Real-time

このモデルは Transformers.js を使って、ブラウザ内で100% ローカルに実行されます。参考までに、モデルが速すぎたため、フレーム取得を120ms遅らせる必要がありました!生成されたキャプションをより追いやすくする(ジャンプを減らす)UXを見つけ次第、その遅延をなくすことができます。提案を歓迎します!

オンラインデモ(+ソースコード): https://huggingface.co/spaces/LiquidAI/LFM2-VL-WebGPU

投稿者: /u/xenovatech
[リンク] [コメント]