OmniJigsaw:モダリティをオーケストレーションして再順序付けすることでオムニモーダル推論を強化する
arXiv cs.CV / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- OmniJigsawは、強化学習ベースのポストトレーニング手法をオムニモーダル(映像・音声など)モデルへ拡張するための、自己教師ありフレームワークであり、シャッフルされた音声・映像クリップの時系列復元を代理課題として用います。
- 手法はCross-modal統合を促すために、Joint Modality Integration、Sample-level Modality Selection、Clip-level Modality Maskingの3つの戦略でモダリティの扱いをオーケストレーションします。
- 代理課題の「パズル品質」が性能に直結する点を踏まえ、大規模な未注釈データへの適応を効率化する二段階の粗密(coarse-to-fine)データ・フィルタリング・パイプラインを提案しています。
- 分析では、Joint Modality Integrationにおける「bi-modal shortcut phenomenon」を指摘し、細粒度のClip-level modality maskingがこれを緩和して、sample-level modality selectionより優れると結論づけています。
- 15のベンチマークで、動画理解・音声理解・協調的(collaborative)推論の各領域で大幅な改善を示し、自己教師ありオムニモーダル学習のスケーラブルな枠組みとして有効性が検証されています。




