長期的なエージェント型タスク—たとえばソフトウェアエンジニアリング、Web閲覧、複雑なツール利用—のための事後学習型の大規模言語モデル(LLM)は、計算効率とモデルの汎化性能の間に、持続的なトレードオフをもたらします。教師あり微調整(SFT)は計算コストが低い一方で、しばしばドメイン外(OOD)の性能が低下し、学習分布を超えて一般化することに苦戦します。逆に、エンドツーエンドの強化学習(E2E […]
この記事のNVIDIA AI Introduces PivotRL: A New AI Framework Achieving High Agentic Accuracy With 4x Fewer Rollout Turns Efficientlyは、MarkTechPostに最初に掲載されました。