AI Navigate

潜在表現での思考: LLMにおける暗黙的推論のための適応的アンカーリファインメント

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • AdaAnchor は、入力に結びつく潜在アンカーベクトルの集合を洗練させる潜在推論フレームワークを導入し、サイレントな反復計算を可能にする。
  • アンカーのダイナミクスが収束したときに洗練を停止する適応的停止機構を用い、容易なインスタンスにはより少ないステップを割り当て、難しいインスタンスには予算を温存する。
  • 3つの数学文章題ベンチマークでの経験的結果は、固定ステップの潜在洗練に対して最大5%の精度向上を示し、潜在ステップ数を48-60%削減し、標準的なベースラインと比較して生成トークンを92-93%削減した。
  • 計算を隠れた潜在空間へ移すことにより、AdaAnchor は出力トークンの使用量と推論コストを大幅に削減しつつ、精度と効率のトレードオフを提供する。

要約: トークンレベルの Chain-of-Thought (CoT) プロンプティングは、大規模言語モデル(LLMs)における多段推論を促す標準的な方法となっており、特に数学의文章題に適用されます。しかし、長い中間の痕跡を生成することは出力長と推論コストを増大させ、モデルが過度な言語化を要せずとも正解に到達できる場合には非効率的となる可能性があります。これにより、計算を隠れた表現へと移し、最終的な答えだけを出力する潜在空間推論アプローチが動機づけられてきました。しかし、多くの潜在推論手法は推論時に固定回数の潜在リファインメントステップに依存しており、精度と効率のバランスをとるために、モデル間やデータセット間で調整する必要がある追加のハイパーパラメータを生じさせます。私たちは AdaAnchor を導入します。これは入力に結びついた潜在アンカー・ベクトルの集合を洗練させることによって沈黙的な反復計算を行う潜在推論フレームワークです。AdaAnchor はさらに、反復を通じたアンカーの安定性を監視し、アンカーのダイナミクスが収束したときに洗練を終了させ、同じ最大ステップ予算の下で容易な事例にはより少ない手順を割り当て、難しいものには追加の洗練手順を確保します。私たちの3つの数学的文章題ベンチマークにおける経験的評価は、適応停止を用いた AdaAnchor が、固定ステップの潜在リファインメントより最大で 5% の精度向上をもたらし、同じ最大ステップ予算の下で平均的な潜在リファインメントステップを 48-60% 削減することを示しています。従来の推論ベースラインと比較して、AdaAnchor は沈黙的な潜在リファインメントへ計算を移動することで生成トークンを大幅に削減し、出力トークンの使用量を大幅に低減します(92-93%)。これにより、異なる精度と効率のトレードオフを、出力トークンの使用量が著しく低い水準で提供します。