OmniJigsaw：モダリティをオーケストレーションして再順序付けすることでオムニモーダル推論を強化する

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

OmniJigsawは、強化学習ベースのポストトレーニング手法をオムニモーダル（映像・音声など）モデルへ拡張するための、自己教師ありフレームワークであり、シャッフルされた音声・映像クリップの時系列復元を代理課題として用います。
手法はCross-modal統合を促すために、Joint Modality Integration、Sample-level Modality Selection、Clip-level Modality Maskingの3つの戦略でモダリティの扱いをオーケストレーションします。
代理課題の「パズル品質」が性能に直結する点を踏まえ、大規模な未注釈データへの適応を効率化する二段階の粗密（coarse-to-fine）データ・フィルタリング・パイプラインを提案しています。
分析では、Joint Modality Integrationにおける「bi-modal shortcut phenomenon」を指摘し、細粒度のClip-level modality maskingがこれを緩和して、sample-level modality selectionより優れると結論づけています。
15のベンチマークで、動画理解・音声理解・協調的（collaborative）推論の各領域で大幅な改善を示し、自己教師ありオムニモーダル学習のスケーラブルな枠組みとして有効性が検証されています。