Alibaba's Qwen team makes AI models think deeper with new algorithm

THE DECODER / 4/5/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • AlibabaのQwenチームが、推論モデルの強化学習で「各トークンが同じ報酬を受ける」問題を、次に与える影響度に応じて各ステップへ重み付けする新アルゴリズムで解消する方針を示した。
  • この手法により、思考プロセスの長さが従来より約2倍になることが記事では述べられている。
  • 従来の報酬設計では改善が頭打ちになりやすいという課題認識の上で、報酬を“前後関係”や“寄与度”に基づけて再設計する点が技術的なポイントになっている。
  • 推論の品質向上につながる可能性があり、今後の推論系モデル開発で学習設計の見直しを促す内容といえる。

Abstract collage with curved data path, orange lines connect spheres and cubes against a green-yellow-black background.

Reinforcement learning hits a wall with reasoning models because every token gets the same reward. A new algorithm from Alibaba's Qwen team fixes this by weighting each step based on how much it shapes what comes next, doubling the length of thought processes in the process.

The article Alibaba's Qwen team makes AI models think deeper with new algorithm appeared first on The Decoder.