計算アラインド・トレーニング：テスト時推論を最適化する

arXiv cs.LG / 2026/4/29

📰 ニュースModels & Research

共有:

要点

本論文は、SFTやRLのような従来のポストトレーニングが各サンプルの尤度をベース方策の下で最適化する一方で、テスト時には集約やフィルタリングされた出力を用いるため目的がずれる可能性を指摘している。
「Compute Aligned Training」は、推論戦略をベース方策に適用されるオペレーターとして捉え、推論時の戦略と整合するように学習目的を再定式化する手法として提案されている。
具体的には、特定のテスト時戦略を適用したときに性能が最大化されることを狙う新しい損失関数を導出している。
SFTおよびRLに対してこれらの損失関数を一般的なテスト時戦略へ適用し、標準的な学習よりもテスト時のスケーリングが大幅に改善するという実験的証拠を示している。

Abstract

テスト時の計算量を拡張することは、大規模言語モデル（LLM）の性能を高めるための強力な仕組みとして注目されてきました。しかし、標準的な事後学習の枠組みである教師あり微調整（SFT）や強化学習（RL）は、基となる方策のもとで個々のサンプルの尤度を最適化するため、集約された、またはフィルタリングされた出力に依存するテスト時の手続きとの間に不整合が生じます。本研究では、学習目標をテスト時の戦略に整合させる「計算整合学習（Compute Aligned Training）」を提案します。推論戦略を基となる方策に対する演算子として概念化することで、当該戦略を適用した際に性能を最大化する新しい損失関数を導出します。さらに、このような損失関数を、一般的なテスト時戦略に対してSFTおよびRLで具体化します。最後に、本学習手法が標準的な学習に比べてテスト時のスケーリングを大幅に改善するという経験的な証拠を提示します。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/29Dailyインサイトを見る →

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

Dev.to

ik_llama.cpp が Qwen3.5 MTP をサポート開始

Reddit r/LocalLLaMA

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

Dev.to

AIエージェント・ネットワークにおける自動エラー回復

Dev.to

計算アラインド・トレーニング：テスト時推論を最適化する

要点

Abstract

💡 この記事が使われたインサイト

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

ik_llama.cpp が Qwen3.5 MTP をサポート開始

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

AIエージェント・ネットワークにおける自動エラー回復

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

💡 この記事が使われたインサイト

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

ik_llama.cpp が Qwen3.5 MTP をサポート開始

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

AIエージェント・ネットワークにおける自動エラー回復

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力