AI Navigate

インサイト最新記事一覧 AI大全

マルチモーダルAIの先週分まとめ（ローカル版）

Reddit r/LocalLLaMA / 2026/3/25

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

今回のまとめでは、新しいローカル／オープンソースのマルチモーダルおよびマルチモーダル関連モデルとツールを紹介しており、コンピュータ利用エージェント、ロボティクス、生成画像／動画の改善まで幅広く取り上げています。
Holotron-12Bは、高いスループットと長いマルチ画像コンテキストを目的とした、オープンなマルチモーダル・コンピュータ利用ポリシーモデルとして提示されています。
NVIDIAのNemotron Omni（Isaac GR00T N1.7を含む）は、エージェント的な用途や、物理／ロボティクス分野での利用を対象とした、言語＋視覚＋音声の統合スタックとして紹介されています。
GlyphPrinterは、Region-Grouped Direct Preference Optimizationによって局所的なスペル誤りを修正し、画像生成における文字レンダリング精度を高めることに注力しており、オープンな重みを備えています。
SparkVSR、SegviGen、OpenMAICにより、動画の超解像、色彩化として捉え直すことで実現する3D物体セグメンテーション（データ要求が少ない）、およびマルチエージェントによるインタラクティブな教室環境といった領域まで焦点が広がります。

Last Week in Multimodal AI - Local Edition

私は毎週マルチモーダルAIのまとめを作成しています。先週のローカル／オープンソースの注目点はこちらです：

Holotron-12B — Open Computer-Use Agent Model（Huggingface）

スループットと長い複数画像のコンテキスト向けに最適化された、マルチモーダルなコンピュータ利用ポリシーモデル。
クローズドなAPIを超えて、コンピュータ利用エージェントのエコシステムのためのオープンな代替手段。
ブログ

NVIDIA Nemotron Omni + Isaac GR00T N1.7

1つのスタックで言語＋視覚＋音声を統合する、オープンなNemotron 3 omniモデル。
ロボティクス向けの、GR00T N1.7 の視覚言語アクションモデル。
発表 | GitHub

GlyphPrinter — 画像生成向けの正確なテキスト描画

https://preview.redd.it/0302hw6ch4rg1.png?width=1456&format=png&auto=webp&s=db3efe2d84a1e194b2c8461806b830a4fa155fe8

Region-Grouped Direct Preference Optimization を用いて、AI画像ジェネレーター内のローカライズされたスペル誤りを修正。
アート寄りのスタイリングと、正確なテキスト描画のバランスを取る。オープンウェイト。
GitHub | Hugging Face

SparkVSR（プロジェクト）— 動画の品質と鮮明さを高めるための、Googleの動画超解像モデル

https://reddit.com/link/1s31c8t/video/1hi48frah4rg1/player

SegviGen — カラライズによる3Dオブジェクトのセグメンテーション

https://reddit.com/link/1s31c8t/video/iiu1xazqg4rg1/player

3D画像ジェネレーターを流用し、カラライズ（色付け）タスクとして定式化することで、精密なオブジェクトのセグメンテーションを行う。
必要とされる学習データは、古い手法が要求するものの1%未満で済む。オープンなコード＋デモ。
GitHub | HFデモ

OpenMAIC — マルチエージェント・インタラクティブ教室

https://reddit.com/link/1s31c8t/video/phc9jsisg4rg1/player

任意のトピックやドキュメントを、AIの先生やクラスメイトとともにインタラクティブな教室に変える。
マルチエージェントのオーケストレーションが、スライド、クイズ、シミュレーション、議論を生成する。
GitHub

SkillNet — AIエージェントのスキルのためのオープン基盤

スケールに応じてAIスキルを作成・評価・整理するためのインフラ。
エージェントが、一時的な経験から持続的な熟達へ移行できるようにする。
論文 | GitHub

さらに多くのデモ、論文、リソースについては、完全版のまとめをご覧ください。

投稿者 /u/Vast_Yak_4147
[リンク] [コメント]

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

日立製作所と日立エナジー、エネルギーインフラ向けAIサービスを提供

日経XTECH

Lemonade 10.0.1がLinuxでAMD Ryzen AI NPUを使うためのセットアップ手順を改善

Lemonade 10.0.1がLinuxでAMD Ryzen AI NPUを使うためのセットアップ手順を改善

Reddit r/artificial

2026年ディベロッパー決戦：Claude Code vs. Google Antigravity

Dev.to

ブラウザだけで完結する運転免許証OCRデモを作ってみた

Qiita

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。