OmniEncoder：1つのエンコーダで人間のように連続する動きを「見る・聞く・感じる」

arXiv cs.CV / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

その論文では、既存のオムニモーダルLLMアーキテクチャが映像1〜2fps・音声約25fpsという非対称なサンプリング設計を採用しているため、モデルが人間のように統合的に理解せず「フレームごと・モダリティごと」に処理してしまう点を指摘しています。
OmniEncoderは、視覚と音声を同じ25fpsで共有潜在空間に同時埋め込みする、統一型Transformerバックボーンを提案し、モーダル間相互作用の強化と細かな視覚運動の捉えやすさを目指しています。
Omni-Encoder Token Template、Omni-RoPE、Temporal Window Shiftingの3つの要素により、モダリティの分離と計算効率という二つの課題を両立させるとしています。
実験では、同一の入力トークン予算の条件でモダリティ別ベースライン（Qwen2.5-Omni）に比べ、手話認識やスポーツの微細な動作解析といった「連続的な視覚理解」タスクで大きな改善が報告されています。
さらにAVQAや話者の識別・位置推定といった既存の音声・映像ベンチマークでも競争力のある性能を維持しており、統一型のエンコーディングが幅広く有効である可能性を示しています。

要旨: オムニモーダルの大規模言語モデルにおける最近の進歩により、視覚・音声の統合理解が目覚ましく向上しました。しかし、従来の主流アーキテクチャは、
\emph{動画は粗いが音声は密}という設計に依存しています――すなわち、視覚フレームを1～2 fpsでサンプリングする一方で、音声波形は25 fpsで処理します。その結果、システムは人間が行うように全体として捉えるのではなく、動画を\emph{フレーム単位で}、モダリティを\emph{モダリティごとに}知覚することになります。この不一致により、エンコード時のモーダル間相互作用が貧弱になり、微細な視覚運動を捉えることができません。このギャップを埋めるために、我々は\textbf{Omni-Encoder}を提案します。これは、共有潜在空間内で視覚信号と音声信号を対称的な25 fpsで同時埋め込みすることを目的とした、統一型Transformerバックボーンです。このアーキテクチャは、3つの中核的革新――Omni-Encoder Token Template、Omni-RoPE、Temporal Window Shifting――を活用することで、モダリティの分離と計算効率という二つの課題を効果的に整合させます。実験の結果、LLMデコーダへ入力するトークン予算が同一である条件下において、モダリティ専用のベースラインであるQwen2.5-Omniと比較して、Omni-Encoderは、手話認識やきめ細かなスポーツ動作の解析といった視覚の連続理解タスクで大幅な改善を示しながら、AVQAや話者の識別・ローカライズ（Speaker Identification and Localization）といった確立済みの音声-視覚ベンチマークでも競争力のある性能を維持することが確認されました。これらの結果は、統一的なオムニボーラス（あらゆる形態の）エンコーディングが、人間の知覚の統合された性質をより密に反映するオムニモーダルモデル構築に向けた有望な方向性を示唆していることを意味します。