AVRT：単一モダリティ教師を用いた音声・映像推論の転移

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、音声・映像といったマルチモーダル領域での高品質推論データ不足という課題に対処しつつ、テキスト推論の能力をマルチモーダル推論へ転移するためのAVRTを提案しています。
AVRTは単一モダリティ教師モデルにより音声推論トレースと視覚推論トレースを別々に生成し、それらをLLMの「merger」で統合して高品質な音声・映像推論トレースを作ります。
対象モデルは、生成トレースによるSFT（コールドスタート）→より大規模データでの強化学習、という2段階の学習パイプラインで音声・映像推論へ適応させます。
7つの音声・映像/音声ベンチマークで評価した結果、AVRTにより学習した3Bおよび7Bモデルは、同程度の規模のモデルの中で最先端の性能を達成し、単一モダリティの推論課題にも改善が転移することを示しました。
著者らは、AVRTをマルチモーダル推論モデル向けの新しい学習パイプラインとして位置付けており、音声と映像のような複合感覚入力に対する推論をより高精度に実現できる可能性を示しています。