ロボットの対話型会話における効率的な感情対応アイコニック・ジェスチャ予測

arXiv cs.RO / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、テキストと感情を用いてアイコニック・ジェスチャの配置位置と強度を予測する、ロボットの対話型会話(コ・スピーチ)用のジェスチャ生成向けの軽量トランスフォーマを提案する。
  • リズミカルでビートのような動きや音声に依存することが多いデータ駆動型アプローチとは異なり、本手法は推論時に音声入力を必要としない。
  • モデルはBEAT2データセットで評価され、セマンティックなジェスチャ配置の分類と強度回帰の両面でGPT-4oを上回ることが報告されている。
  • 著者らは、このアプローチが計算量的にコンパクトであるため、身体性を備えたエージェントへのリアルタイム導入に適していると強調している。

要旨: 同時発話ジェスチャーはエンゲージメントを高め、発話理解を改善します。データ駆動型のロボットシステムの多くはリズミカルなビートのような運動を生成しますが、意味的な強調を統合するものはほとんどありません。そこで本研究では、テキストと感情のみから、象徴的なジェスチャーの配置位置と強度を導出する軽量なトランスフォーマーを提案します。推論時には音声入力を一切必要としません。このモデルは、BEAT2データセットにおける意味的ジェスチャー配置の分類と強度回帰の両方でGPT-4oを上回りつつ、計算量がコンパクトで、身体を持つエージェントへのリアルタイム導入に適しています。