低負担のLLMベース選好学習：言語フィードバックから麻痺のあるユーザ向けに介助ロボットを個別化する

arXiv cs.RO / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、身体的に介助するロボットには個別化された行動が必要である点を扱い、従来の選好学習手法が、深刻な運動障害をもつユーザに対して重い一対比較により負担をかけ得ることを指摘している。
LLMを用い、作業療法実践枠組み（OTPF）に基づいて、非構造化の自然言語によるフィードバックを決定論的なロボット制御ポリシーへ変換する、低負担のオフライン・フレームワークを提案する。
音声からコードへの翻訳における曖昧さに対処するため、パイプラインでは臨床的推論を行い、主観的な反応を明示的な身体的・心理的要件へと変換する。これらは、解釈可能な決定木として表現される。
自動化された「LLM-as-a-Judge」ステップにより、生成されたポリシーコードをデプロイ前に構造的安全性の観点から検証する。
シミュレーションによる食事準備の研究では、麻痺のある成人10名を対象に本手法がベースラインよりもユーザの作業負荷を低減し、臨床専門家は生成されたポリシーを安全かつ選好を正確に反映していると評価した。