心理的特徴とトランスフォーマー統合による歩行者横断意図予測

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、注意、位置、状況、相互作用の4つの行動ストリームを統合し、ハイウェイ型エンコーダとコンパクトな4トークン・トランスフォーマーを用いて歩行者の意図予測を行う、軽量で社会的情報を取り入れたアーキテクチャを提案する。
  • 変分ボトルネックを用いた不確実性推定とマハラノビス距離検出器を組み込み、較正された確率と実用的なリスクスコアを提供する。
  • PSI 1.0 では、構造化特徴のみを用いて、F1=0.9、AUC-ROC=0.94、MCC=0.78 という指標で最近のビジョン-言語モデルを上回る。
  • PSI 2.0 では、80%のカバレッジでの選択的予測により精度を向上させ、F1=0.78、AUC-ROC=0.79 の強力なベースラインを確立する。
  • アプローチはモダリティに依存しない、ビジョン-言語パイプラインへの組み込みが容易で、リソース制約のあるプラットフォームでのリスク認識型意図予測に適している。

要旨: 歩行者の意図予測は、自動運転車が都市環境を安全に走行するために正確である必要があります。私たちは歩行者の意図予測のための軽量で社会的情報を取り入れたアーキテクチャを提示します。それは、注意、位置、状況、相互作用という4つの行動ストリームを、ハイウェイエンコーダ、コンパクトな4トークンのトランスフォーマー、そしてグローバル自己注意プーリングを用いて統合します。KL発散が認識的不確実性を捉える変分ボトルネックと、分布シフトを識別するマハラノビス距離検出器という2つの補完的ヘッドを組み込みます。これらを組み合わせることで、効率性を損なうことなく、校正された確率と実用的なリスクスコアを提供します。 PSI 1.0ベンチマークでは、構造化され解釈可能な特徴量のみを使用して、0.9のF1、0.94のAUC-ROC、0.78のMCCを達成することで、最近のビジョンと言語モデルを上回ります。 より多様性のあるPSI 2.0データセットでは、私たちの知る限り先行結果が存在しない中、0.78 F1と0.79 AUC-ROCという強力な初期ベースラインを確立します。マハラノビススコアに基づく選択的予測は、80%のカバレッジでテスト精度を最大0.4ポイント向上させます。定性的なアテンションヒートマップは、不確実性下でモデルがクロスストリームの焦点をどのように移すかをさらに示します。提案されたアプローチはモダリティに依存せず、ビジョン言語パイプラインとの統合も容易で、リソース制約のあるプラットフォーム上でのリスクを考慮した意図予測に適しています。