QuantClaw：OpenClawで重要な“精度”を最適化する

arXiv cs.AI / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

この論文は、OpenClawの自律エージェントが現実的な長文・多回対話ワークフローでどのように量子化の影響を受けるかを分析し、必要な精度がタスクごとに大きく異なることを示している。
QuantClawとして、タスクの特性に応じて精度を動的に割り当てる「精度ルーティング」プラグインを提案し、軽量タスクには低コストな精度設定を、負荷の高い作業には高精度を維持する。
GLM-5での実験（FP8ベースライン）では、QuantClawがタスク性能を維持または向上させつつ、レイテンシと計算コストを削減できることが示されている。
さまざまなエージェント作業で、最大21.4%のコスト削減と15.7%のレイテンシ削減が報告され、エージェントシステムでは精度を動的なリソースとして扱う利点が示唆される。

Abstract

OpenClawのような自律エージェントシステムは、長いコンテキスト入力とマルチターン推論によって、大きな効率上の課題が生じます。これにより、実世界での開発において計算コストと金銭コストが過剰に高くなります。コストとレイテンシを削減する標準的なアプローチとして量子化がありますが、現実的なシナリオにおけるエージェントの性能への影響は依然として不明です。本研究では、OpenClaw上で多様で複雑なワークフローにわたって量子化に対する感度を分析し、必要な精度はタスク依存性が非常に高いことを示します。この観察に基づき、QuantClawという、タスクの特性に応じて精度を動的に割り当てるプラグ・アンド・プレイ型の精度ルーティング・プラグインを提案します。QuantClawは軽量なタスクを低コストの構成へルーティングしつつ、要求の厳しいワークロードには高い精度を維持することで、コストを削減し、ユーザーの複雑さを増やすことなく推論を高速化します。実験の結果、当社のQuantClawはレイテンシと計算コストの両方を削減しながら、タスク性能を維持、または向上させることが示されました。幅広いエージェントタスクにおいて、GLM-5（FP8ベースライン）で最大21.4%のコスト削減と15.7%のレイテンシ低減を達成します。これらの結果は、エージェントシステムにおいて精度を動的なリソースとして扱うことの利点を示しています。