| 私は毎週のマルチモーダルAI総まとめを編纂しています。先週の地域/オープンソースのハイライトを以下に示します。 FlashMotion - 制御可能なビデオ生成 https://reddit.com/link/1rwuxs1/video/d9qi6xl0mqpg1/player Foundation 1 - 音楽制作モデル https://reddit.com/link/1rwuxs1/video/y6wtywk1mqpg1/player GlyphPrinter - 画像生成のための正確なテキスト表現 MatAnyone 2 - 動画オブジェクトマティング https://reddit.com/link/1rwuxs1/video/4uzxhij3mqpg1/player ViFeEdit - 画像ペアからの動画編集
https://reddit.com/link/1rwuxs1/video/yajih834mqpg1/player Anima Preview 2
LTX-2.3 Colorizer LoRA
特筆すべき次点: MJ1 - 3Bマルチモーダルジャッジ(コードはまだ公開されていませんが、3B活性化で印象的な結果)
さらなるデモ、論文、リソースについては、完全版ニュースレターを確認してください。 [リンク] [コメント] |
マルチモーダルAIの先週まとめ - ローカル版
Reddit r/LocalLLaMA / 2026/3/18
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本投稿は、先週のローカルおよびオープンソースのマルチモーダルAIツールとモデルのまとめで、いくつかのプロジェクトとそのリソースの入手先を紹介しています。
- FlashMotion は、多オブジェクトのボックス/マスクガイダンスを用いた Wan2.2-TI2V 上での制御可能な動画生成において、最先端手法と比較して50倍の高速化を主張し、ウェイトを提供しています。
- Foundation 1 は、7 GB VRAM で動作するテキストからサンプル音楽を生成するモデルを紹介しており、アクセス用の投稿とウェイトへのリンクが付いています。
- GlyphPrinter は、画像生成のための字形正確な多言語テキストレンダリングを提供し、複雑な中国語文字をオープンウェイトで扱います。
- ラウンドアップには、動画オブジェクトマッティング用の MatAnyone 2(オープンコードとデモあり)と、画像ペアから動画を編集する ViFeEdit(動画のトレーニング不要)にも言及されており、両方ともコードとデモが公開されています。