Abstract
視運動制御ポリシーの複雑化は、異種のロボットハードウェア制約を伴う環境での導入に大きな課題をもたらします。しかし、ロボット操作における既存のモデル効率化アプローチの多くは、特定のデバイスや特定のモデルに依存しており、汎用性に欠け、適応プロセス中にデバイスごとに時間のかかる最適化を要します。本研究では、textbf{D}evice-textbf{C}onditioned textbf{Q}uantization-textbf{F}or-textbf{A}ll (DC-QFA) と名付けた統一フレームワークを提案します。これは、デバイス条件付きの量子化を意識した学習と、ハードウェア制約下のアーキテクチャ探索によって、導入にかかる工数を償却(amortize)します。具体的には、ネットワークアーキテクチャと混合精度ビット幅にまたがる豊富な設計空間を包含する単一のスーパーネットを導入します。これは、デバイスごとのルックアップテーブルに導かれ、レイテンシーおよびメモリを考慮した正則化によって最適化されます。このスーパーネットにより、各ターゲット基盤に対して、デバイスごとの再最適化なしで、一度きりの一発探索(once-for-all)で最適なサブネットを選択できます。これにより、異種ハードウェアにわたるより汎用性の高い導入が可能になり、導入時間も大幅に短縮されます。低精度下での長期ホライズンの安定性を改善するために、さらに、クローズドループ実行時の誤差蓄積を抑えるべく、多段のオンポリシー蒸留(multi-step on-policy distillation)を導入します。DiffusionPolicy-T、MDT-V、OpenVLA-OFT といった3つの代表的なポリシーバックボーンに対する大規模な実験により、提案する DC-QFA がエッジデバイス、コンシューマグレードのGPU、クラウド環境で 2 ext{-}3 imes の加速を達成し、タスク成功における性能低下はごくわずかであることを示します。さらに、力/トルクセンサを備えた Inovo ロボットに対する実世界評価により、低ビットの DC-QFA ポリシーが、過酷な量子化下でも接触の多い操作を安定に維持できることが裏付けられます。