Heracles: Bridging Precise Tracking and Generative Synthesis for General Humanoid Control

arXiv cs.RO / 3/31/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 提案手法Heraclesは、厳密な参照モーション追従と、環境擾乱時の人間的な回復(生成的合成)を両立する汎用ヒューマノイド制御ミドルウェアとして位置づけられている。
  • 既存の剛直な参照トラッキング中心のコントローラでは、強い外乱下で脆く非人間的な失敗モードを起こしやすいという課題に対し、状態に条件付けした拡散モデルで振る舞いを切り替える(明示的なモード切替を回避する)設計を採用している。
  • ロボット状態が参照に近い場合はidentity mapに近い振る舞いでゼロショット追従の精度を維持し、状態が大きく逸脱した場合は生成的シンセサイザへ滑らかに移行して自然で人間らしい回復軌道を生成する。
  • 生成プリオルを制御ループに統合することで、極端な擾乱へのロバスト性が向上し、ヒューマノイド制御を「剛直な追従」から「開かれた生成的汎用アーキテクチャ」へ拡張できると主張している。

Abstract

Achieving general-purpose humanoid control requires a delicate balance between the precise execution of commanded motions and the flexible, anthropomorphic adaptability needed to recover from unpredictable environmental perturbations. Current general controllers predominantly formulate motion control as a rigid reference-tracking problem. While effective in nominal conditions, these trackers often exhibit brittle, non-anthropomorphic failure modes under severe disturbances, lacking the generative adaptability inherent to human motor control. To overcome this limitation, we propose Heracles, a novel state-conditioned diffusion middleware that bridges precise motion tracking and generative synthesis. Rather than relying on rigid tracking paradigms or complex explicit mode-switching, Heracles operates as an intermediary layer between high-level reference motions and low-level physics trackers. By conditioning on the robot's real-time state, the diffusion model implicitly adapts its behavior: it approximates an identity map when the state closely aligns with the reference, preserving zero-shot tracking fidelity. Conversely, when encountering significant state deviations, it seamlessly transitions into a generative synthesizer to produce natural, anthropomorphic recovery trajectories. Our framework demonstrates that integrating generative priors into the control loop not only significantly enhances robustness against extreme perturbations but also elevates humanoid control from a rigid tracking paradigm to an open-ended, generative general-purpose architecture.