HeavySkill：エージェント駆動ハーネスにおける内なるスキルとしての“ヘビー・シンキング”

arXiv cs.AI / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「HeavySkill」を提案し、エージェント駆動のオーケストレーションにおける性能の鍵は外側のシステム設計だけでなく、モデルのパラメータに内在される“ヘビー・シンキング”の内なる学習可能スキルにあると主張する。
HeavySkillは、並列推論→要約の2段階パイプラインとして定式化されており、さまざまなエージェント駆動ハーネス／オーケストレーションの下で動作できる。
複数のドメインで体系的な実験を行い、HeavySkillが従来のBest-of-N（BoN）戦略を一貫して上回ること、特により強力なLLMではPass@Nに近づくことを示す。
強化学習により、ヘビー・シンキングの深さと幅をさらにスケールできることを明らかにし、壊れやすいオーケストレーション層への依存を下げつつ自己進化するLLMへの有望な道筋を示している。

概要: 複数のエージェントを、記憶・技能・ツール利用とともに協調させるオーケストレーション・フレームワークによるエージェント的ハーネスの最近の進展は、複雑な推論タスクにおいて目覚ましい成功を収めています。しかし、性能を本当に駆動している根本的なメカニズムは、複雑なシステム設計の背後に隠れており、未だ明らかではありません。本論文では、HeavySkill を提案します。これは「重い思考（heavy thinking）」を、オーケストレーション・ハーネスにおける最小限の実行単位としてだけでなく、モデルのパラメータ内に内在化された内的技能として捉える視点です。この技能はオーケストレータが複雑なタスクを解決するよう駆動します。我々は、この技能が二段階のパイプライン、すなわち「並列推論」から「要約」へという構成になっており、どのようなエージェント的ハーネスの下でも動作し得ることを特定します。多様な領域にわたって HeavySkill を系統的に実験的に調査する研究を提示します。我々の結果は、この内的技能が従来の Best-of-N（BoN）戦略を一貫して上回ることを示しています。とりわけ、より強力な LLM では Pass@N 性能にさえ近づけることがあります。決定的に重要なのは、この重い思考の深さと幅が、学習可能な技能として、強化学習によりさらにスケール可能であることを我々が実証する点です。これにより、脆く壊れやすいオーケストレーション層に頼らずに、複雑な推論を内在化する自己進化型 LLM へつながる有望な道筋が示されます。