概要: 大規模言語モデル(LLM)をソーシャルロボティクスに統合することに関して、近年の進歩にもかかわらず、2つの弱点が依然として残っています。第一に、Pepperのようなプラットフォーム上の既存の実装はしばしば、カスケードされた 音声認識(STT)→LLM→音声合成(TTS)のパイプラインに依存しており、その結果、遅延が大きくなり、また韻律情報(パラ言語的情報)が失われます。第二に、ほとんどの実装は、マルチモーダル知覚およびエージェント的制御に関して、LLMの能力を十分に活用できていません。私たちは、これらの制限に対処するための2つの主要な革新を通じて、Pepperロボット向けのオープンソースAndroidフレームワークを提示します。第一に、韻律的手がかりを保持しつつ、適応的なイントネーションを可能にし、低遅延の対話を実現するために、エンドツーエンドの 音声入力→音声出力(S2S)モデルを統合します。第二に、LLMをエージェント的プランナーへと引き上げる大規模な関数呼び出し(Function Calling)機能を実装し、ロボットの行動(ナビゲーション、視線制御、タブレット操作)をオーケストレーションするとともに、多様なマルチモーダルなフィードバック(視覚、触覚、システム状態)を統合します。フレームワークはロボットのタブレット上で動作しますが、通常のAndroidスマートフォンやタブレット上で動作するようにも構築可能であり、ロボットのハードウェアから開発を切り離せます。本研究は、LLM駆動の身体性を備えた高度なインタラクションを探求するための、実用的で拡張可能なプラットフォームをHRIコミュニティに提供します。
Pepperロボット向けの低遅延・LLM駆動マルチモーダル対話のためのフレームワーク
arXiv cs.AI / 2026/3/24
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、一般的なカスケード型STT→LLM→TTSパイプラインで生じがちな遅延の高さや、準言語的な手がかりの損失に対処することを目的とした、Pepper向けのオープンソースAndroidフレームワークを提示している。
- それは、韻律(プロソディ)を維持しつつ、状況に応じたイントネーションを可能にするために、低遅延対話を支えるエンドツーエンドのSpeech-to-Speech(S2S)モデルを用いている。
- フレームワークは、堅牢なファンクション・コーリングを追加することでLLMの活用を拡張し、LLMがエージェント的プランナーとして、ナビゲーション、視線制御、タブレット操作の調整を行えるようにしている。
- 視覚、触覚、システム状態といったマルチモーダルなフィードバックチャネルを統合し、身体性を備えたHRI(Human-Robot Interaction)の制御と知覚を改善する。
- 本システムはPepperのタブレット上で動作するよう設計されているだけでなく、標準的なAndroidデバイスにも移植可能であり、ロボットのハードウェアに依存せずに開発・実験を進めやすくしている。