TIGFlow-GRPO:相互作用を考慮したフローマッチングと報酬駆動最適化による軌道予測

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、人間の軌道予測に対して、教師ありの当てはめに主として依存するのではなく、生成された軌道を行動ルールやシーン制約に明示的に整合させる二段階フレームワーク「TIGFlow-GRPO」を提案する。
  • 第1段階では、時空間観測からエージェント同士およびエージェントとシーン間の相互作用をより適切に符号化するためのTrajectory-Interaction-Graph(TIG)モジュールで強化したConditional Flow Matching(CFM)予測器を構築する。
  • 第2段階では、Flow-GRPOのポストトレーニング手法を適用し、決定論的なフロー・ロールアウトを、探索を促すために確率的なODE-to-SDEサンプリングへ変換することで、多峰性の未来に向けた多様性を促進する。
  • 学習では、視点に応じた社会的な整合性と、地図に基づく物理的な実現可能性を組み合わせた複合報酬を用い、GRPOが予測を行動としてもっともらしい結果へ段階的に誘導する。
  • ETH/UCYおよびSDDでの実験により、予測精度の向上、長期ホライズンにおける挙動の安定性向上、ならびに社会的に整合しつつ物理的にも実現可能な軌道が示される。

概要: 人間の軌跡予測は、自動運転や群衆監視のように視覚的に複雑な環境で動作するインテリジェントなマルチメディアシステムにとって重要である。Conditional Flow Matching(CFM)は時空間観測から軌跡分布をモデル化する強い能力を示しているが、既存の手法は主に教師ありの当てはめに焦点を当てており、その結果、生成される軌跡において社会的な規範やシーンの制約が十分に反映されない可能性がある。そこで本研究では、行動ルールとフローベースの軌跡生成を整合させる二段階の生成フレームワークであるTIGFlow-GRPOを提案する。第一段階では、Trajectory-Interaction-Graph(TIG)モジュールを備えたCFMベースの予測器を構築し、きめ細かな視覚・空間相互作用をモデル化して文脈エンコーディングを強化する。この段階では、エージェント同士およびエージェントとシーンの関係をより効果的に捉えることで、後続の整合のための、より情報量の多い条件特徴を提供する。第二段階では、Flow-GRPOの事後学習を行う。ここでは、決定論的なフローのロールアウトを確率的なODEからSDEへのサンプリングとして言い換え、軌跡の探索を可能にする。また、複合報酬は、視点を考慮した社会的適合性と、地図を考慮した物理的実現可能性を組み合わせる。SDEロールアウトによって探索された軌跡を評価することで、GRPOは行動的に妥当な将来へ向けて、漸進的にマルチモーダル予測を誘導する。ETH/UCYおよびSDDデータセットでの実験により、TIGFlow-GRPOは、より社会的に適合し、かつ物理的に実現可能な軌跡を生成しつつ、予測精度と長期ホライズンの安定性を向上させることが示される。これらの結果は、提案フレームワークが、動的なマルチメディア環境における行動に基づく整合と、フローベースの軌跡モデリングを結びつけるための効果的な方法を提供することを示唆している。