PolySLGen: 多者相互作用におけるオンライン話者・聴取反応生成のためのマルチモーダル手法
arXiv cs.CV / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- PolySLGenは、polyadicな集団相互作用の中で対象参加者に対して、人間らしいマルチモーダルな反応行動(音声に加えて身体動作および発話状態)を生成するための、arXivで発表されたオンライン・フレームワークである。
- 本手法は、過去の会話履歴と全参加者の動作を取り込み、時間的に整合した将来の反応を生成する。これにより、従来研究が単一モダリティ、または話者のみの二者(dyadic)設定に焦点を当てていたことによる限界に明確に対処する。
- 集団ダイナミクスをより適切に捉えるために、PolySLGenはポーズ・フュージョン・モジュールとソーシャル合図エンコーダを導入し、これらが集団全体にわたる動作と社会的手がかりを共同で集約する。
- 定量的・定性的な評価による実験では、PolySLGenが、適応型および最先端のベースラインと比較して、動作品質、動作と音声の整合、発話状態の予測、ならびに全体的な人間が感じるリアリティを向上させることが示されている。


