エッジデバイスを用いたソーシャルロボット向けローカル言語モデルのベンチマーク

arXiv cs.RO / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、厳しい計算資源の制約下でプライバシーを保ちつつ応答性の高い対話を必要とするソーシャル教育ロボット向けに、ローカル実行できるオープンソースLLMを体系的に評価するベンチマークが不足している点を扱っています。
25モデルをエッジ機器（主にRaspberry Pi 4、補足としてRaspberry Pi 5とノートPCのGPU）で評価し、(1)推論効率（トークン/秒・消費エネルギー）、(2)一般知識（MMLUの6カテゴリ部分集合）、(3)教育効果（LLMが評価した教育的品質を人手評価で検証）という3側面で比較しています。
モデル間では大きなトレードオフが見られ、推論スループットとエネルギー効率は1桁以上の差があり、MMLU精度はほぼランダムから57.2%まで幅がある一方で、教育効果は効率や知識指標と単調には相関しません。
Granite4 Tiny Hybrid（7B）は総合的に有力で、効率と知識のバランスを取りつつ教育目的に関係する評価でも良好な結果を示し、人手検証でも自動順位付けが概ね維持されたと報告されています。
これらの知見を踏まえ、RSC（Robot Study Companion）向けに、計算資源の乏しい環境で応答性と精度のバランスを取るための3層ローカル推論アーキテクチャを提案しています。