要旨: 同時発話ジェスチャーはエンゲージメントを高め、発話理解を改善します。データ駆動型のロボットシステムの多くはリズミカルなビートのような運動を生成しますが、意味的な強調を統合するものはほとんどありません。そこで本研究では、テキストと感情のみから、象徴的なジェスチャーの配置位置と強度を導出する軽量なトランスフォーマーを提案します。推論時には音声入力を一切必要としません。このモデルは、BEAT2データセットにおける意味的ジェスチャー配置の分類と強度回帰の両方でGPT-4oを上回りつつ、計算量がコンパクトで、身体を持つエージェントへのリアルタイム導入に適しています。
ロボットの対話型会話における効率的な感情対応アイコニック・ジェスチャ予測
arXiv cs.RO / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキストと感情を用いてアイコニック・ジェスチャの配置位置と強度を予測する、ロボットの対話型会話(コ・スピーチ)用のジェスチャ生成向けの軽量トランスフォーマを提案する。
- リズミカルでビートのような動きや音声に依存することが多いデータ駆動型アプローチとは異なり、本手法は推論時に音声入力を必要としない。
- モデルはBEAT2データセットで評価され、セマンティックなジェスチャ配置の分類と強度回帰の両面でGPT-4oを上回ることが報告されている。
- 著者らは、このアプローチが計算量的にコンパクトであるため、身体性を備えたエージェントへのリアルタイム導入に適していると強調している。




