モデルは監督（supervision）へどれくらい速くコミットすべきか？Tsallis損失連続体で推論モデルを学習する

arXiv cs.LG / 2026/4/29

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

この論文は、初期の成功確率が小さい場合に推論モデルが出力レベルのみの監督や検証可能報酬に基づく強化学習（RLVR）で停滞しやすいこと、特にRLの「搾取（exploitation）極」で顕著になることを示します。
Tsallisのq対数に基づく損失族（J_Q）を提案し、RLVR（q=0）から潜在軌跡上の対数マージナル尤度（q=1）までを連続的に補間できる枠組みを示し、その主な作用はインスタンスごとの再重み付け/増幅係数 P_{θ^{-q}} によって制御されると述べています。
勾配フローの解析では、搾取極はコールドスタートから抜けるのに Ω(1/p0) の時間が必要である一方、密度推定極は Θ(log(1/p0)) で抜けることができ、中間のqは「抜ける速さ」と「ノイズの記憶（memorization）」のトレードオフになると説明しています。
P_θ が計算困難であるため、モンテカルロに基づく2つの学習法（Gradient-Amplified RL: GARL と Posterior-Attenuated Fine-Tuning: PAFT）を導出し、それぞれが異なるバイアス/分散特性と意味的に整合した勾配の性質を持つことを示します。
FinQA、HotPotQA、MuSiQueでの実験では、q=0.75 のGARLがコールドスタートでの停滞を大きく緩和し、GRPOでは脱出できないケースで脱出に成功します。一方ウォームスタートではGARLが学習を不安定化しうるため、HotPotQAでは q=0.75 のPAFT が全体最良（47.9 maj@16、GRPOに対し+14.4）という結果を示します。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

日経XTECH

LLMはコモディティになる

Reddit r/artificial

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

Dev.to

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

Dev.to

モデルは監督（supervision）へどれくらい速くコミットすべきか？Tsallis損失連続体で推論モデルを学習する

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力