LLMの共進化におけるカリキュラム多様性のための語彙ドロップアウト

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、LLMのカリキュラム学習における共進化的な自己対戦（self-play）を研究している。そこでは、一方のモデルが数学の問題を提案し、もう一方のモデルがそれを解く。さらに、訓練が「多様性の崩壊（diversity collapse）」に陥りうることを示し、提案者が報酬を満たすことだけに収束して、問題分布が狭いものに固定されてしまう。
「語彙ドロップアウト（vocabulary dropout）」を導入する。これは、提案者の出力ロジットに対して、ハードで非定常なランダムマスキングを行う手法であり、政策学習とカリキュラム生成の両方で適用することで、提案者が固定されたトークン列にロックインするのを防ぐ。
実験では、数学的推論に関してR-ZeroでQwen3-4BおよびQwen3-8Bを学習させる。結果として、語彙ドロップアウトは、学習期間を通じて、語彙的・意味的・機能的な指標のいずれにおいても提案者の多様性を維持することが示される。
この手法は、8Bモデルのソルバを平均で+4.4ポイント改善し、特に競技レベルのベンチマークで最大の向上が得られる。
著者らは、古典的な自己対戦におけるゲームのルールに相当するような、行動空間に対する明示的な制約を追加することで、生産的な共進化を維持し、かつカリキュラムをソルバにとって有益なものにできると主張している。

Black Hat Asia

AI Business

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

LLMの共進化におけるカリキュラム多様性のための語彙ドロップアウト

要点

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ