OmniモデルにおけるContext Unrolling

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、テキスト、画像、動画、3Dジオメトリ、そして内部表現（hidden representations）を含む多様なモダリティをネイティブに学習する統一型マルチモーダルモデル「Omni」を提案している。
著者らは、この学習により「Context Unrolling」が生じると主張しており、モデルは予測を出す前に複数のモダリティ表現にまたがって明示的に推論する。
Omniは異種モダリティ間の補完的な情報をより適切に統合でき、共有されるマルチモーダル知識空間をより忠実に近似することで推論の精度を高めるとされる。
同モデルは、マルチモーダルな生成および理解ベンチマークで強い性能を示し、さらにin-contextでテキスト、画像、動画、3Dジオメトリを生成できる高度なマルチモーダル推論能力が示されている。
総じて、この研究はContext Unrollingをマルチモーダル・システムの下流推論の忠実度を高める手段として位置付けている。

要旨: テキスト、画像、動画、3D幾何、そして隠れ表現など、多様なモダリティ上でネイティブに学習された統一型マルチモーダルモデルであるOmniを提示します。こうした学習により、モデルが予測を行う前に複数のモダリティ表現をまたいで明示的に推論する「Context Unrolling（文脈のアンローリング）」が可能になることを見出します。この過程により、異種のモダリティ間で補完的な情報を集約し、共有されるマルチモーダル知識マニフォールドをより忠実に近似することができ、下流の推論の信頼性が向上します。その結果、Omniは、マルチモーダル生成ベンチマークと理解ベンチマークの両方で強力な性能を達成し、さらにテキスト、画像、動画、3D幾何に対する文脈内生成を含む高度なマルチモーダル推論能力を示します。

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

Dev.to

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

Dev.to

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Dev.to

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

Reddit r/LocalLLaMA

OmniモデルにおけるContext Unrolling

要点

関連記事

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer