視覚に基づくヒューマノイドエージェント

arXiv cs.RO / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「視覚に基づくヒューマノイドエージェント」を提案し、スクリプト化された制御や特権的な状態ではなく、視覚観測と指定された目標のみを用いて、デジタルヒューマンが新しい3Dシーン上で能動的に振る舞えるようにすることを目指す。
実世界の動画から意味的に豊かな3Dガウシアンシーンを再構成し、アニメーション可能なガウシアンベースの人型アバターを支える「ワールド層」と、自律的なヒューマノイド制御のための「エージェント層」の2層構成の枠組みを導入する。
エージェント層は、アバターに一人称のRGB-D知覚を備えさせ、空間的な認識と反復的な推論に基づく身体化された計画（embodied planning）を行わせ、これを低レベルの全身動作によって実行する。
著者らは、さまざまに再構成された環境にまたがるヒューマノイドとシーンの相互作用を評価するためのベンチマークも公開する。
実験では、アブレーションや競合する計画手法と比べて、衝突がより少なく課題達成率が高いなど、より頑健な自律行動が報告されており、著者らはデータ、コード、モデルをオープンソース化する予定である。

要旨: デジタルヒューマンの生成は数十年にわたって研究されており、幅広い実世界の応用を支えています。しかし、既存の多くのシステムは受動的にアニメーション化されているにとどまり、特権的な状態や台本による制御に依存しているため、新しい環境へのスケーラビリティが制限されます。そこで私たちは次の問いを置きます。すなわち、「新しいシーンにおいて、デジタルヒューマンは、視覚的な観測と指定された目標だけを用いて、どのように能動的に振る舞うことができるのか？」です。これを実現できれば、あらゆる3D環境に対して、自然で自発的な、目標に導かれた行動を示すデジタルヒューマンを、大規模に投入できるようになります。そこで本研究では、複合された二層（ワールドエージェント）のパラダイムである「Visually-grounded Humanoid Agents（視覚に基づくヒューマノイド・エージェント）」を導入します。これは、人間を複数のレベルで再現する枠組みであり、彼らが実世界の3Dシーンにおいて、見て、知覚し、推論し、実際の人のように振る舞うことを可能にします。ワールド層は、遮蔽（occlusion）に配慮したパイプラインによって実世界の動画から意味的に豊かな3Dガウスシーンを再構成し、アニメーション可能なガウスベースの人型アバターに対応します。エージェント層は、これらのアバターを自律的なヒューマノイド・エージェントへと変換し、第一人称RGB-D知覚を備えます。さらに、空間的な認識と反復的な推論によって、身体性を伴った正確な計画を実行できるようにし、その後、シーン内での振る舞いを駆動するために、低レベルでは全身動作として実行します。加えて、多様に再構成された環境におけるヒューマノイド・シーン相互作用を評価するためのベンチマークも提案します。実験の結果、私たちのエージェントは頑健な自律行動を達成し、アブレーションや最先端の計画手法と比べて、タスク成功率が高く、衝突が少ないことが示されました。本研究は、能動的なデジタルヒューマンの人口を可能にし、ヒューマン中心の身体性を備えたAIを前進させます。データ、コード、モデルはオープンソースとして公開予定です。