SFT-GRPOのデータ重なりを、オートフォーマリゼーションのためのポストトレーニング・ハイパーパラメータとして扱う

arXiv cs.LG / 2026/4/16

📰 ニュースIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

この論文は、スーパーバイズド・ファインチューニング（SFT）データとGroup Relative Policy Optimization（GRPO）プロンプトの重なりが、Lean 4のオートフォーマリゼーションにおけるポストトレーニング性能へ与える影響について、制御されたアブレーション（機能削除）研究を提示する。
Qwen3-8B（thinking無効）を用いた実験では、基準（ベース）、SFTのみ、GRPOのみ、SFT+GRPOの各設定を比較し、GRPOプロンプトの重なり率をSFTコーパスに対して0%、30%、100%としつつ、計算コストは一定に保つ。
結果から、SFTデータとGRPOデータを互いに非重複のまま維持することが、追加の計算コストを増やさない状況で常に完全重なりよりも優れており、重なりが小さくなるほど性能が単調に向上することが示される。
Gaokao-Formalでは、0%重なりにより、SFT単独に対してGRPOが意味的（セマンティック）に10.4ポイント改善する一方、100%重なりではコンパイル指標と意味的指標の双方が頭打ちになり、GRPOが実質的に冗長になる。
本研究は、デュアルな指標による評価によって、コンパイルとセマンティックの間に30点超の大きなギャップが存在することを明らかにし、コンパイルのみのベンチマークでは見落とされ得る差を捉えることで、SFT-GRPOの重なりを意義のあるポストトレーニング・ハイパーパラメータとして位置づける。

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ

日経XTECH

AIエージェントによる持続可能な収益ガイド：ゼロから収益化へ

Dev.to

AIエージェントの隠れた経済学：競争市場におけるサバイバル戦略

Dev.to

大手テック企業はAIへの投資と統合を加速させている一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

AIエージェント導入の見えないコスト：エンタープライズにおける真のROIを見極めるCFOガイド

Dev.to

SFT-GRPOのデータ重なりを、オートフォーマリゼーションのためのポストトレーニング・ハイパーパラメータとして扱う

要点

関連記事

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ

AIエージェントによる持続可能な収益ガイド：ゼロから収益化へ

AIエージェントの隠れた経済学：競争市場におけるサバイバル戦略

大手テック企業はAIへの投資と統合を加速させている一方で、規制当局と企業は安全性と責任ある導入に注力している

AIエージェント導入の見えないコスト：エンタープライズにおける真のROIを見極めるCFOガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIで研修刷新 サイバーエージェントは上流重視、サイボウズはClaude中心へ

AIエージェントによる持続可能な収益ガイド：ゼロから収益化へ

AIエージェントの隠れた経済学：競争市場におけるサバイバル戦略

大手テック企業はAIへの投資と統合を加速させている一方で、規制当局と企業は安全性と責任ある導入に注力している

AIエージェント導入の見えないコスト：エンタープライズにおける真のROIを見極めるCFOガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ