Pepperロボット向けの低遅延・LLM駆動マルチモーダル対話のためのフレームワーク

arXiv cs.AI / 2026/3/24

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、一般的なカスケード型STT→LLM→TTSパイプラインで生じがちな遅延の高さや、準言語的な手がかりの損失に対処することを目的とした、Pepper向けのオープンソースAndroidフレームワークを提示している。
それは、韻律（プロソディ）を維持しつつ、状況に応じたイントネーションを可能にするために、低遅延対話を支えるエンドツーエンドのSpeech-to-Speech（S2S）モデルを用いている。
フレームワークは、堅牢なファンクション・コーリングを追加することでLLMの活用を拡張し、LLMがエージェント的プランナーとして、ナビゲーション、視線制御、タブレット操作の調整を行えるようにしている。
視覚、触覚、システム状態といったマルチモーダルなフィードバックチャネルを統合し、身体性を備えたHRI（Human-Robot Interaction）の制御と知覚を改善する。
本システムはPepperのタブレット上で動作するよう設計されているだけでなく、標準的なAndroidデバイスにも移植可能であり、ロボットのハードウェアに依存せずに開発・実験を進めやすくしている。

概要: 大規模言語モデル（LLM）をソーシャルロボティクスに統合することに関して、近年の進歩にもかかわらず、2つの弱点が依然として残っています。第一に、Pepperのようなプラットフォーム上の既存の実装はしばしば、カスケードされた音声認識（STT）→LLM→音声合成（TTS）のパイプラインに依存しており、その結果、遅延が大きくなり、また韻律情報（パラ言語的情報）が失われます。第二に、ほとんどの実装は、マルチモーダル知覚およびエージェント的制御に関して、LLMの能力を十分に活用できていません。私たちは、これらの制限に対処するための2つの主要な革新を通じて、Pepperロボット向けのオープンソースAndroidフレームワークを提示します。第一に、韻律的手がかりを保持しつつ、適応的なイントネーションを可能にし、低遅延の対話を実現するために、エンドツーエンドの音声入力→音声出力（S2S）モデルを統合します。第二に、LLMをエージェント的プランナーへと引き上げる大規模な関数呼び出し（Function Calling）機能を実装し、ロボットの行動（ナビゲーション、視線制御、タブレット操作）をオーケストレーションするとともに、多様なマルチモーダルなフィードバック（視覚、触覚、システム状態）を統合します。フレームワークはロボットのタブレット上で動作しますが、通常のAndroidスマートフォンやタブレット上で動作するようにも構築可能であり、ロボットのハードウェアから開発を切り離せます。本研究は、LLM駆動の身体性を備えた高度なインタラクションを探求するための、実用的で拡張可能なプラットフォームをHRIコミュニティに提供します。

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

Pepperロボット向けの低遅延・LLM駆動マルチモーダル対話のためのフレームワーク

要点

関連記事

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer