先週のマルチモーダルAI - ローカル版

Reddit r/LocalLLaMA / 2026/4/8

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Google などの各研究機関が、Google Gemma 4(コーディング/推論)や Falcon Perception、IBM Granite 4.0 Vision のようなコンパクトな視覚/ドキュメントモデルを含む、オープンなマルチモーダルモデルのリリースと研究を取り上げました。
  • まとめでは、セグメンテーション、OCR、オープン語彙理解のための基盤となる、ますます高性能な軽量 VLM(例:0.6B の Falcon Perception)に注目しています。
  • 新しいオープンソースおよび研究のフレームワークは、CutClaw(自律的な動画→ナラティブ編集)や Gen-Searcher(エージェント的なスタイル誘導による画像生成)など、マルチモーダル生成ワークフローに焦点を当てています。
  • 閉ループ/空間的推論に基づく生成も、GEMS を通じて取り上げられており、先行研究と比べて GenEval2 での性能向上が報告されています。
  • 全体として、「ローカル/オープンソース」への重点は、小型環境で動作でき、開発者のパイプラインに統合しやすいマルチモーダルシステムにおける、急速な反復が進んでいることを示唆しています。
Last Week in Multimodal AI - Local Edition

私はマルチモーダルAIの週次まとめをキュレーションしています。先週のローカル/オープンソースの注目ポイントはこちらです:

  • Google Gemma 4 - コーディングと論理推論のためのオープンモデルファミリーで、大規模なコンテキストウィンドウを備えています。1台のマシンで動作します。 Post | Models
  • TII Falcon Perception - オープンボキャブラリのグラウンディング、セグメンテーション、OCRを備えた、0.6Bの初期融合VLM。実力以上の成果を叩き出します。 Post | Hugging Face
  • IBM Granite 4.0 3B Vision - 視覚推論とデータ抽出のための、コンパクトなドキュメント・インテリジェンスモデル。 Post | Model
  • CutClaw - 複数のエージェントで構成されたオープンなフレームワークで、自律的に何時間分もの映像を編集してナラティブな短編動画に仕上げます。 Paper | GitHub | Hugging Face

https://reddit.com/link/1sfk3ml/video/bdbtxu55lwtg1/player

  • Gen-Searcher - スタイルをまたいだエージェント型サーチによる画像生成。 Hugging Face | GitHub

https://preview.redd.it/gx79bhh7lwtg1.png?width=1080&format=png&auto=webp&s=c65942c05079f00c0e20b3b385577468aed18b3c

  • GEMS - 空間ロジックとテキスト描画のためのクローズドループ生成。GenEval2でNano Banana 2を上回ります。 Paper | GitHub

https://preview.redd.it/1xxjuxe2lwtg1.png?width=1080&format=png&auto=webp&s=b08a1675defa500235805d35afd7352d578bfd65

https://reddit.com/link/1sfk3ml/video/jcbgg63clwtg1/player

  • ComfyUI Post-Processing Suite - thezveroboyによるフォトリアリズム・スイート。ベース64のEXIF転送とキャリブレーション済みのDNG書き込みにより、センサーノイズ、アナログ的なアーティファクト、カメラのメタデータをシミュレートします。 GitHub

https://preview.redd.it/r797g7n3lwtg1.png?width=990&format=png&auto=webp&s=0c25ab8481c8c78ffcbf2b4c4c0857149268b976

  • Flux FaceIR - ブラインドまたは参照ガイド付きの顔復元のためのFlux-2-klein LoRA。 GitHub

https://preview.redd.it/ywr8smv8lwtg1.png?width=1080&format=png&auto=webp&s=0cc4e704dc3adcc26e6a8a901af597248d2bf378

  • Netflix VOID - 物理シミュレーションによるビデオオブジェクト削除。CogVideoX-5BとSAM 2.に基づいて構築されています。 Project | Hugging Face Space

https://reddit.com/link/1sfk3ml/video/yy7d98y9lwtg1/player

  • Flux-restoration - FLUX.2-klein-base-4B上での統合顔復元LoRA。 GitHub

https://preview.redd.it/uc2mdztalwtg1.png?width=1080&format=png&auto=webp&s=a16319c50496e68f6cf9a677d49ec90bf651a287

より多くのデモ、論文、リソースについては、full roundupをご覧ください。

submitted by /u/Vast_Yak_4147
[link] [comments]