| 私は毎週マルチモーダルAIのまとめを作成しています。先週のローカル/オープンソースの注目点はこちらです: Holotron-12B — Open Computer-Use Agent Model(Huggingface)
NVIDIA Nemotron Omni + Isaac GR00T N1.7 GlyphPrinter — 画像生成向けの正確なテキスト描画
SparkVSR(プロジェクト)— 動画の品質と鮮明さを高めるための、Googleの動画超解像モデル https://reddit.com/link/1s31c8t/video/1hi48frah4rg1/player SegviGen — カラライズによる3Dオブジェクトのセグメンテーション https://reddit.com/link/1s31c8t/video/iiu1xazqg4rg1/player
OpenMAIC — マルチエージェント・インタラクティブ教室 https://reddit.com/link/1s31c8t/video/phc9jsisg4rg1/player
SkillNet — AIエージェントのスキルのためのオープン基盤 さらに多くのデモ、論文、リソースについては、完全版のまとめをご覧ください。 [リンク] [コメント] |
マルチモーダルAIの先週分まとめ(ローカル版)
Reddit r/LocalLLaMA / 2026/3/25
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 今回のまとめでは、新しいローカル/オープンソースのマルチモーダルおよびマルチモーダル関連モデルとツールを紹介しており、コンピュータ利用エージェント、ロボティクス、生成画像/動画の改善まで幅広く取り上げています。
- Holotron-12Bは、高いスループットと長いマルチ画像コンテキストを目的とした、オープンなマルチモーダル・コンピュータ利用ポリシーモデルとして提示されています。
- NVIDIAのNemotron Omni(Isaac GR00T N1.7を含む)は、エージェント的な用途や、物理/ロボティクス分野での利用を対象とした、言語+視覚+音声の統合スタックとして紹介されています。
- GlyphPrinterは、Region-Grouped Direct Preference Optimizationによって局所的なスペル誤りを修正し、画像生成における文字レンダリング精度を高めることに注力しており、オープンな重みを備えています。
- SparkVSR、SegviGen、OpenMAICにより、動画の超解像、色彩化として捉え直すことで実現する3D物体セグメンテーション(データ要求が少ない)、およびマルチエージェントによるインタラクティブな教室環境といった領域まで焦点が広がります。
