RoboAlign-R1：ロボット向けビデオ世界モデルのための蒸留マルチモーダル報酬整合

arXiv cs.RO / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

RoboAlign-R1は、ロボット向けビデオ世界モデルを、指示追従や操作成功、物理的妥当性といったロボットに本質的に重要な目標に沿う形で改善する枠組みとしてarXivで発表されました。
本研究では、RobotWorldBench（4つのロボットデータソースから収集した10,000件の注釈付きビデオ–指示ペア）と、生成動画を6次元できめ細かく評価するマルチモーダルの教師ジャッジ「RoboAlign-Judge」を提案しています。
RoboAlign-R1は、教師ジャッジを蒸留して軽量な学生報酬モデルに変換し、効率的な強化学習ベースのポストトレーニングを可能にします。
長期の自己回帰予測で生じる誤差蓄積に対し、Sliding Window Re-encoding（SWR）という学習不要の推論戦略を導入し、生成コンテキストを定期的に更新してロールアウトのドリフトを抑えます。
報告されたインドメイン評価では、最強ベースラインに対して6次元の総合スコアが10.1%向上し（操作精度+7.5%、指示追従+4.6%など）、SWRは追加レイテンシ約1%でSSIMが2.8%改善、LPIPSが9.8%減少しました。

The Batch

日経XTECH

日経XTECH

日経XTECH

日経XTECH