OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering
arXiv cs.CV / 4/10/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- OmniJigsawは、強化学習ベースのポストトレーニング手法をオムニモーダル(映像・音声など)モデルへ拡張するための、自己教師ありフレームワークであり、シャッフルされた音声・映像クリップの時系列復元を代理課題として用います。
- 手法はCross-modal統合を促すために、Joint Modality Integration、Sample-level Modality Selection、Clip-level Modality Maskingの3つの戦略でモダリティの扱いをオーケストレーションします。
- 代理課題の「パズル品質」が性能に直結する点を踏まえ、大規模な未注釈データへの適応を効率化する二段階の粗密(coarse-to-fine)データ・フィルタリング・パイプラインを提案しています。
- 分析では、Joint Modality Integrationにおける「bi-modal shortcut phenomenon」を指摘し、細粒度のClip-level modality maskingがこれを緩和して、sample-level modality selectionより優れると結論づけています。
- 15のベンチマークで、動画理解・音声理解・協調的(collaborative)推論の各領域で大幅な改善を示し、自己教師ありオムニモーダル学習のスケーラブルな枠組みとして有効性が検証されています。
Related Articles

Black Hat Asia
AI Business

GLM 5.1 tops the code arena rankings for open models
Reddit r/LocalLLaMA

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to

My Bestie Built a Free MCP Server for Job Search — Here's How It Works
Dev.to
can we talk about how AI has gotten really good at lying to you?
Reddit r/artificial