SODA：大規模言語モデルのための半オントポリシー・ブラックボックス蒸留

arXiv cs.LG / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、SODAという半オントポリシー・ブラックボックス蒸留手法を提案する。この手法は、誤り訂正型のオンポリシー手法と、不安定で高コストな敵対的蒸留とのトレードオフを解決することを目的とする。

Abstract

大規模言語モデルに対するブラックボックス知識蒸留は、厳密なトレードオフを伴います。シンプルなオフポリシー手法（例：シーケンスレベル知識蒸留）は、生徒が本来持つ誤りを修正するのが難しいです。一方、完全なオンポリシー手法（例：生成的敵対的蒸留）は、敵対的学習によってこの問題を解決しますが、よく知られた学習の不安定さと、深刻な計算オーバーヘッドを導入します。このジレンマに対処するため、我々はSODA（Alignmentを伴う半オンポリシー蒸留）を提案します。これは、フロンティアの教師とそれよりはるかに小さい基盤モデルの間に存在する固有の能力ギャップに動機づけられた、高効率な代替手法です。コンパクトな生徒モデルの自然なゼロショット応答は、強力な教師のターゲットに対してほぼ確実に劣っているため、教師の最適応答と、生徒の出力を1回だけ固定した静的スナップショットを組み合わせることで、非常に効果的な対照的（コントラスタブル）な学習信号を構成できます。これにより、小さな生徒にその静的な劣った振る舞いをさらすだけで、高品質な分布整合が達成できることが示され、コストの高い動的ロールアウトや、脆弱な敵対的バランシングを不要にします。4つのコンパクトなQwen2.5およびLlama-3モデルに対する大規模な評価により、この半オンポリシーの枠組みが検証されます。SODAは、16件のベンチマーク結果のうち15件で、最先端手法に一致または上回ります。さらに重要なのは、より優れた蒸留品質を達成しながら、学習を10倍高速化し、ピークGPUメモリを27%削減し、敵対的な不安定性を完全に取り除いていることです。

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

日経XTECH

SODA：大規模言語モデルのための半オントポリシー・ブラックボックス蒸留

要点

Abstract

関連記事

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ