AgenticQwen:デュアルデータ・フライホイールで小型エージェント型言語モデルを学習し、産業規模でのツール利用を可能にする

arXiv cs.CL / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この論文では、厳しいレイテンシーとコスト制約の下での産業向けツール活用を目的とした、小型のエージェント型言語モデル「AgenticQwen」ファミリーを提案しています。
  • 学習は、合成データと少量のオープンソースデータを組み合わせ、多段階の強化学習(RL)で行い、推論に焦点を当てたRLとエージェント型RLを併用します。
  • 二つの「データ・フライホイール」により、課題を自動的に段階的に難化させます:推論フライホイールは誤りから学習して難易度を上げ、エージェントフライホイールは直線的なワークフローを分岐する行動ツリ—へ拡張します。
  • 公開のエージェントベンチマークと産業用エージェントシステムで検証し、複数ベンチマークで良好な性能に加えて、検索・データ分析ではより大規模なモデルに近づいたと報告しています。
  • モデルのチェックポイントや合成データの一部はHugging Faceで公開し、データ合成およびRL学習コード、さらにEasyDistillへの統合も提供しています。