要約: 既存のテスト時スケーリング(TTS)手法は、統一マルチモーダルモデル(UMMs)によるテキストから画像への生成(T2I)において、主に探索またはサンプリング戦略に依存しており、インスタンスレベルの改善しか生み出せず、過去の推論から学習し、類似のプロンプト間で知識を蓄積する能力を制限します。これらの制限を克服するために、メタ認知的テスト時強化学習フレームワークであるMeta-TTRLを提案します。Meta-TTRLは、UMMsのメタ知識に由来するモデル内監視信号に導かれたテスト時パラメータ最適化を実行し、テスト時に自己改善と能力レベルの改善を達成します。広範な実験により、Meta-TTRLはJanus-Pro-7B、BAGEL、Qwen-Imageを含む3つの代表的なUMMsに対して良好に一般化し、データが限られた状況で構成推論タスクや複数のT2Iベンチマークで顕著な成果を挙げています。私たちは、UMMsにおけるT2I生成の可能性を調査する最初の包括的な分析を提供します。私たちの分析はさらに、効果的なTTRLの基盤となる重要な洞察として、メタ認知的相乗効果を明らかにします。ここで監視信号はモデルの最適化レジームと整合し、自己改善を可能にします。
Meta-TTRL: 統一マルチモーダルモデルにおける自己改善を実現するテスト時強化学習のメタ認知フレームワーク
arXiv cs.LG / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Meta-TTRL は、統一マルチモーダルモデルからの内部モニタリング信号を用いて、テスト時にモデルパラメータを最適化し、自己改善と能力レベルの向上を実現するメタ認知的なテスト時強化学習フレームワークを提示する。
- 本手法は、従来のテスト時スケーリングの限界に対処し、類似したプロンプト間で知識を蓄積できるようにすることで、インスタンスレベルの改善だけにとどまらない能力向上を可能にする。
- 実験では、Meta-TTRL が複数の統一マルチモーダルモデル(Janus-Pro-7B、BAGEL、Qwen-Image)に対して一般化し、限られたデータで構成的推論タスクおよびさまざまなテキストから画像へのベンチマークにおいて有意な改善をもたらすことを示す。
- 重要な発見は、メタ認知的相乗効果であり、モニタリング信号がモデルの最適化方針と一致してテスト時に効果的な自己改善を促進する点である。