先週のマルチモーダルAI - ローカル版

Reddit r/LocalLLaMA / 2026/4/8

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

Google などの各研究機関が、Google Gemma 4（コーディング/推論）や Falcon Perception、IBM Granite 4.0 Vision のようなコンパクトな視覚/ドキュメントモデルを含む、オープンなマルチモーダルモデルのリリースと研究を取り上げました。
まとめでは、セグメンテーション、OCR、オープン語彙理解のための基盤となる、ますます高性能な軽量 VLM（例：0.6B の Falcon Perception）に注目しています。
新しいオープンソースおよび研究のフレームワークは、CutClaw（自律的な動画→ナラティブ編集）や Gen-Searcher（エージェント的なスタイル誘導による画像生成）など、マルチモーダル生成ワークフローに焦点を当てています。
閉ループ/空間的推論に基づく生成も、GEMS を通じて取り上げられており、先行研究と比べて GenEval2 での性能向上が報告されています。
全体として、「ローカル/オープンソース」への重点は、小型環境で動作でき、開発者のパイプラインに統合しやすいマルチモーダルシステムにおける、急速な反復が進んでいることを示唆しています。

私はマルチモーダルAIの週次まとめをキュレーションしています。先週のローカル／オープンソースの注目ポイントはこちらです：

Google Gemma 4 - コーディングと論理推論のためのオープンモデルファミリーで、大規模なコンテキストウィンドウを備えています。1台のマシンで動作します。 Post | Models
TII Falcon Perception - オープンボキャブラリのグラウンディング、セグメンテーション、OCRを備えた、0.6Bの初期融合VLM。実力以上の成果を叩き出します。 Post | Hugging Face
IBM Granite 4.0 3B Vision - 視覚推論とデータ抽出のための、コンパクトなドキュメント・インテリジェンスモデル。 Post | Model
CutClaw - 複数のエージェントで構成されたオープンなフレームワークで、自律的に何時間分もの映像を編集してナラティブな短編動画に仕上げます。 Paper | GitHub | Hugging Face

GEMS - 空間ロジックとテキスト描画のためのクローズドループ生成。GenEval2でNano Banana 2を上回ります。 Paper | GitHub

ComfyUI Post-Processing Suite - thezveroboyによるフォトリアリズム・スイート。ベース64のEXIF転送とキャリブレーション済みのDNG書き込みにより、センサーノイズ、アナログ的なアーティファクト、カメラのメタデータをシミュレートします。 GitHub