HY-Embodied-0.5: 現実世界のエージェントのためのエンボディド・ファウンデーションモデル

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsModels & Research

要点

  • HY-Embodied-0.5は、現実世界でのエンボディド・エージェント向けに調整されたファウンデーションモデル群として導入されており、空間/時間的な視覚知覚と、予測・相互作用・計画のためのエンボディド推論に焦点を当てています。
  • このスイートには2つの変種があり、エッジ展開向けの効率的な2Bアクティベーションモデルと、より複雑な推論のための32Bアクティベーションモデルを用意し、能力と実用性のバランスを取ることを目指しています。
  • モダリティ固有の計算と潜在トークンを用いるMixture-of-Transformers(MoT)アーキテクチャにより、エンボディド課題に必要なきめ細かな視覚表現を強化します。
  • 推論は、反復的で自己進化するポストトレーニング手法により改善され、オンポリス・ディスティレーションによって大規模モデルの能力が小規模な変種へと移植されます。
  • 22のタスクにまたがるベンチマークでは、2Bモデルが同程度のサイズのベースラインを16のベンチマークで上回り、32Bモデルは最先端システムに匹敵する性能に到達したと報告されています。また、著者らは、彼らのVLMファウンデーションから訓練したVision-Language-Action(VLA)モデルによって実世界のロボット制御における改善が得られたと報告しており、コード/モデルはオープンソース化されています。

要旨: 我々は、現実世界の身体化エージェントのために特化して設計された基盤モデルのファミリーであるHY-Embodied-0.5を提案する。一般的な視覚言語モデル(VLM)と、身体化エージェントが求める要件とのギャップを埋めるために、我々のモデルは身体化知能に必要な中核能力、すなわち空間的および時間的な視覚知覚に加えて、予測・相互作用・計画のための高度な身体化推論を強化するよう開発されている。HY-Embodied-0.5スイートは、主に2つのバリアントから構成される。エッジ展開向けに設計された、活性化パラメータ2Bの効率的モデルと、複雑な推論を対象とした、活性化パラメータ32Bの強力なモデルである。身体化タスクに不可欠なきめ細かな視覚知覚を支えるために、モダリティ固有の計算を可能にするMixture-of-Transformers(MoT)アーキテクチャを採用する。潜在トークンを組み込むことで、この設計はモデルの知覚表現を効果的に強化する。推論能力を高めるために、反復的で自己進化するポストトレーニングのパラダイムを導入する。さらに、オンポリス蒸留を用いて、大規模モデルの高度な能力を小型バリアントへ移転し、それによりコンパクトモデルの性能ポテンシャルを最大化する。視覚知覚、空間推論、身体化理解にまたがる22のベンチマークに対する広範な評価により、本アプローチの有効性が示される。我々のMoT-2Bモデルは、同程度のサイズの最先端モデルの16のベンチマークで上回り、32BバリアントはGemini 3.0 Proのようなフロンティアモデルと同等の性能を達成する。下流のロボット制御の実験では、堅牢なVLM基盤を活用して効果的なVision-Language-Action(VLA)モデルを学習し、現実世界の物理評価において説得力のある結果を得る。コードとモデルはhttps://github.com/Tencent-Hunyuan/HY-Embodiedでオープンソース化されている。