マルチモーダルAIの先週分まとめ(ローカル版)

Reddit r/LocalLLaMA / 2026/3/25

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 今回のまとめでは、新しいローカル/オープンソースのマルチモーダルおよびマルチモーダル関連モデルとツールを紹介しており、コンピュータ利用エージェント、ロボティクス、生成画像/動画の改善まで幅広く取り上げています。
  • Holotron-12Bは、高いスループットと長いマルチ画像コンテキストを目的とした、オープンなマルチモーダル・コンピュータ利用ポリシーモデルとして提示されています。
  • NVIDIAのNemotron Omni(Isaac GR00T N1.7を含む)は、エージェント的な用途や、物理/ロボティクス分野での利用を対象とした、言語+視覚+音声の統合スタックとして紹介されています。
  • GlyphPrinterは、Region-Grouped Direct Preference Optimizationによって局所的なスペル誤りを修正し、画像生成における文字レンダリング精度を高めることに注力しており、オープンな重みを備えています。
  • SparkVSR、SegviGen、OpenMAICにより、動画の超解像、色彩化として捉え直すことで実現する3D物体セグメンテーション(データ要求が少ない)、およびマルチエージェントによるインタラクティブな教室環境といった領域まで焦点が広がります。
Last Week in Multimodal AI - Local Edition

私は毎週マルチモーダルAIのまとめを作成しています。先週のローカル/オープンソースの注目点はこちらです:

Holotron-12B — Open Computer-Use Agent Model(Huggingface)

  • スループットと長い複数画像のコンテキスト向けに最適化された、マルチモーダルなコンピュータ利用ポリシーモデル。
  • クローズドなAPIを超えて、コンピュータ利用エージェントのエコシステムのためのオープンな代替手段。
  • ブログ

NVIDIA Nemotron Omni + Isaac GR00T N1.7

  • 1つのスタックで言語+視覚+音声を統合する、オープンなNemotron 3 omniモデル。
  • ロボティクス向けの、GR00T N1.7 の視覚言語アクションモデル。
  • 発表 | GitHub

GlyphPrinter — 画像生成向けの正確なテキスト描画

https://preview.redd.it/0302hw6ch4rg1.png?width=1456&format=png&auto=webp&s=db3efe2d84a1e194b2c8461806b830a4fa155fe8

  • Region-Grouped Direct Preference Optimization を用いて、AI画像ジェネレーター内のローカライズされたスペル誤りを修正。
  • アート寄りのスタイリングと、正確なテキスト描画のバランスを取る。オープンウェイト。
  • GitHub | Hugging Face

SparkVSRプロジェクト)— 動画の品質と鮮明さを高めるための、Googleの動画超解像モデル

https://reddit.com/link/1s31c8t/video/1hi48frah4rg1/player

SegviGen — カラライズによる3Dオブジェクトのセグメンテーション

https://reddit.com/link/1s31c8t/video/iiu1xazqg4rg1/player

  • 3D画像ジェネレーターを流用し、カラライズ(色付け)タスクとして定式化することで、精密なオブジェクトのセグメンテーションを行う。
  • 必要とされる学習データは、古い手法が要求するものの1%未満で済む。オープンなコード+デモ。
  • GitHub | HFデモ

OpenMAIC — マルチエージェント・インタラクティブ教室

https://reddit.com/link/1s31c8t/video/phc9jsisg4rg1/player

  • 任意のトピックやドキュメントを、AIの先生やクラスメイトとともにインタラクティブな教室に変える。
  • マルチエージェントのオーケストレーションが、スライド、クイズ、シミュレーション、議論を生成する。
  • GitHub

SkillNet — AIエージェントのスキルのためのオープン基盤

  • スケールに応じてAIスキルを作成・評価・整理するためのインフラ。
  • エージェントが、一時的な経験から持続的な熟達へ移行できるようにする。
  • 論文 | GitHub

さらに多くのデモ、論文、リソースについては、完全版のまとめをご覧ください。

投稿者 /u/Vast_Yak_4147
[リンク] [コメント]