AI Navigate

マルチモーダルAIの先週まとめ - ローカル版

Reddit r/LocalLLaMA / 2026/3/18

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

本投稿は、先週のローカルおよびオープンソースのマルチモーダルAIツールとモデルのまとめで、いくつかのプロジェクトとそのリソースの入手先を紹介しています。
FlashMotion は、多オブジェクトのボックス/マスクガイダンスを用いた Wan2.2-TI2V 上での制御可能な動画生成において、最先端手法と比較して50倍の高速化を主張し、ウェイトを提供しています。
Foundation 1 は、7 GB VRAM で動作するテキストからサンプル音楽を生成するモデルを紹介しており、アクセス用の投稿とウェイトへのリンクが付いています。
GlyphPrinter は、画像生成のための字形正確な多言語テキストレンダリングを提供し、複雑な中国語文字をオープンウェイトで扱います。
ラウンドアップには、動画オブジェクトマッティング用の MatAnyone 2（オープンコードとデモあり）と、画像ペアから動画を編集する ViFeEdit（動画のトレーニング不要）にも言及されており、両方ともコードとデモが公開されています。

マルチモーダルAIの先週 - ローカル版

私は毎週のマルチモーダルAI総まとめを編纂しています。先週の地域/オープンソースのハイライトを以下に示します。

FlashMotion - 制御可能なビデオ生成

Wan2.2-TI2V上で、複数オブジェクトのボックス/マスクガイダンスを用いた、少段階のビデオ生成。
SOTAより50倍の高速化。ウェイト公開中。
プロジェクト | ウェイト

https://reddit.com/link/1rwuxs1/video/d9qi6xl0mqpg1/player

Foundation 1 - 音楽制作モデル

音楽ワークフロー用に設計されたテキストからサンプルへのモデル。7 GB VRAMで動作します。
投稿 | ウェイト

https://reddit.com/link/1rwuxs1/video/y6wtywk1mqpg1/player

GlyphPrinter - 画像生成のための正確なテキスト表現

テキストから画像モデル向けの、グリフ精度の高い多言語テキストレンダリング。
複雑な漢字にも対応。公開ウェイト。
プロジェクト | コード | ウェイト

https://preview.redd.it/2i60hgm2mqpg1.png?width=1456&format=png&auto=webp&s=f82a1729c13b45849c60155620e0782bcd5bafe6

MatAnyone 2 - 動画オブジェクトマティング

動画から動く物体を、自己評価品質ループで切り抜きます。
コードとデモを公開。
デモ | コード

https://reddit.com/link/1rwuxs1/video/4uzxhij3mqpg1/player

ViFeEdit - 画像ペアからの動画編集

2Dの画像ペアだけでビデオを編集します。動画トレーニングは不要。Wan2.1/2.2 + LoRAで構築。
コード

https://reddit.com/link/1rwuxs1/video/yajih834mqpg1/player

Anima Preview 2

Anima拡散モデルの最新プレビュー。
ウェイト

https://preview.redd.it/ilenx525mqpg1.png?width=1456&format=png&auto=webp&s=b9f883365c8964cea17883447cce3e420a53231b

LTX-2.3 Colorizer LoRA

IC-LoRAを用いたカラー化機能と、プロンプトベースの制御。
ウェイト

https://preview.redd.it/jw2t6966mqpg1.png?width=1456&format=png&auto=webp&s=d4b0dc1f2541c09659e34b2e07407bbd70fc960d

特筆すべき次点:

MJ1 - 3Bマルチモーダルジャッジ（コードはまだ公開されていませんが、3B活性化で印象的な結果）

3Bアクティブパラメータのみを用いたRL訓練済みマルチモーダルジャッジ。
Multimodal RewardBench 2でGemini-3-Proを上回る（精度77.0%）。
論文

MJ1の検証チェーン

さらなるデモ、論文、リソースについては、完全版ニュースレターを確認してください。

投稿者 /u/Vast_Yak_4147
[リンク] [コメント]

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

提言：CAFという“型”で成功の再現性を高める

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。