要旨: 推論LLMは、新しい問題を解く際に、長い中間推論トレース(例:チェーン・オブ・ソート)に対して多大なトークンを費やすことが多いです。本研究では、大規模な熟考や試行錯誤の探索を通じて抽出した、再利用可能な推論スキルを要約して保存し、推論時にそれらのスキルを取り出して将来の推論を導く手法を提案します。支配的な
scratchからの推論
パラダイムとは異なり、私たちのアプローチはまず各クエリに対して関連するスキルを想起するため、モデルは冗長な遠回りを避け、効果的な解決経路に集中できます。私たちは、コーディングおよび数学的推論タスクで本手法を評価し、その結果、推論トークンを大幅に削減しつつ、全体の性能を向上できることを確認しました。結果として得られるリクエストあたりの低コストは、現実の導入における強い実用的・経済的可能性を示しています。
推論スキルで考える:より少ないトークン、より高い精度
arXiv cs.AI / 2026/4/25
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本記事は、長い中間推論トレース(例:チェーン・オブ・ソート)で浪費されるトークンを抑えるために、推論スキルを再利用する新しい方法を提案している。
- すべての問い合わせでゼロから推論する代わりに、各問題に関連するスキルをまず検索して、遠回りな試行を避けつつ有効な解決経路へ集中させる。
- 大規模な熟慮や試行錯誤から得た知見を要約して保存し、推論時にそれらを再利用できるようにすることで、再利用可能な推論スキルを構築する。
- コーディングおよび数学の推論タスクでの評価では、推論に使うトークン数の削減と全体性能の向上が示されている。
- 1リクエストあたりのコスト(トークン消費)が低くなるため、実運用における経済性の高さが期待できると論じている。



