ロボットの対話型会話における効率的な感情対応アイコニック・ジェスチャ予測

arXiv cs.RO / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストと感情を用いてアイコニック・ジェスチャの配置位置と強度を予測する、ロボットの対話型会話（コ・スピーチ）用のジェスチャ生成向けの軽量トランスフォーマを提案する。
リズミカルでビートのような動きや音声に依存することが多いデータ駆動型アプローチとは異なり、本手法は推論時に音声入力を必要としない。
モデルはBEAT2データセットで評価され、セマンティックなジェスチャ配置の分類と強度回帰の両面でGPT-4oを上回ることが報告されている。
著者らは、このアプローチが計算量的にコンパクトであるため、身体性を備えたエージェントへのリアルタイム導入に適していると強調している。

要旨: 同時発話ジェスチャーはエンゲージメントを高め、発話理解を改善します。データ駆動型のロボットシステムの多くはリズミカルなビートのような運動を生成しますが、意味的な強調を統合するものはほとんどありません。そこで本研究では、テキストと感情のみから、象徴的なジェスチャーの配置位置と強度を導出する軽量なトランスフォーマーを提案します。推論時には音声入力を一切必要としません。このモデルは、BEAT2データセットにおける意味的ジェスチャー配置の分類と強度回帰の両方でGPT-4oを上回りつつ、計算量がコンパクトで、身体を持つエージェントへのリアルタイム導入に適しています。

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

日経XTECH

統一マルチモーダル事前学習における新たな性質（Emerging Properties）

Dev.to

ロボットの対話型会話における効率的な感情対応アイコニック・ジェスチャ予測

要点

関連記事

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

統一マルチモーダル事前学習における新たな性質（Emerging Properties）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer