AI Navigate

マルチモーダルAIの先週まとめ - ローカル版

Reddit r/LocalLLaMA / 2026/3/18

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本投稿は、先週のローカルおよびオープンソースのマルチモーダルAIツールとモデルのまとめで、いくつかのプロジェクトとそのリソースの入手先を紹介しています。
  • FlashMotion は、多オブジェクトのボックス/マスクガイダンスを用いた Wan2.2-TI2V 上での制御可能な動画生成において、最先端手法と比較して50倍の高速化を主張し、ウェイトを提供しています。
  • Foundation 1 は、7 GB VRAM で動作するテキストからサンプル音楽を生成するモデルを紹介しており、アクセス用の投稿とウェイトへのリンクが付いています。
  • GlyphPrinter は、画像生成のための字形正確な多言語テキストレンダリングを提供し、複雑な中国語文字をオープンウェイトで扱います。
  • ラウンドアップには、動画オブジェクトマッティング用の MatAnyone 2(オープンコードとデモあり)と、画像ペアから動画を編集する ViFeEdit(動画のトレーニング不要)にも言及されており、両方ともコードとデモが公開されています。
マルチモーダルAIの先週 - ローカル版

私は毎週のマルチモーダルAI総まとめを編纂しています。先週の地域/オープンソースのハイライトを以下に示します。

FlashMotion - 制御可能なビデオ生成

  • Wan2.2-TI2V上で、複数オブジェクトのボックス/マスクガイダンスを用いた、少段階のビデオ生成。
  • SOTAより50倍の高速化。ウェイト公開中。
  • プロジェクト | ウェイト

https://reddit.com/link/1rwuxs1/video/d9qi6xl0mqpg1/player

Foundation 1 - 音楽制作モデル

  • 音楽ワークフロー用に設計されたテキストからサンプルへのモデル。7 GB VRAMで動作します。
  • 投稿 | ウェイト

https://reddit.com/link/1rwuxs1/video/y6wtywk1mqpg1/player

GlyphPrinter - 画像生成のための正確なテキスト表現

  • テキストから画像モデル向けの、グリフ精度の高い多言語テキストレンダリング。
  • 複雑な漢字にも対応。公開ウェイト。
  • プロジェクト | コード | ウェイト

https://preview.redd.it/2i60hgm2mqpg1.png?width=1456&format=png&auto=webp&s=f82a1729c13b45849c60155620e0782bcd5bafe6

MatAnyone 2 - 動画オブジェクトマティング

  • 動画から動く物体を、自己評価品質ループで切り抜きます。
  • コードとデモを公開。
  • デモ | コード

https://reddit.com/link/1rwuxs1/video/4uzxhij3mqpg1/player

ViFeEdit - 画像ペアからの動画編集

  • 2Dの画像ペアだけでビデオを編集します。動画トレーニングは不要。Wan2.1/2.2 + LoRAで構築。
  • コード

https://reddit.com/link/1rwuxs1/video/yajih834mqpg1/player

Anima Preview 2

  • Anima拡散モデルの最新プレビュー。
  • ウェイト

https://preview.redd.it/ilenx525mqpg1.png?width=1456&format=png&auto=webp&s=b9f883365c8964cea17883447cce3e420a53231b

LTX-2.3 Colorizer LoRA

  • IC-LoRAを用いたカラー化機能と、プロンプトベースの制御。
  • ウェイト

https://preview.redd.it/jw2t6966mqpg1.png?width=1456&format=png&auto=webp&s=d4b0dc1f2541c09659e34b2e07407bbd70fc960d

特筆すべき次点:

MJ1 - 3Bマルチモーダルジャッジ(コードはまだ公開されていませんが、3B活性化で印象的な結果)

  • 3Bアクティブパラメータのみを用いたRL訓練済みマルチモーダルジャッジ。
  • Multimodal RewardBench 2でGemini-3-Proを上回る(精度77.0%)。
  • 論文

MJ1の検証チェーン

さらなるデモ、論文、リソースについては、完全版ニュースレターを確認してください。

投稿者 /u/Vast_Yak_4147
[リンク] [コメント]