DARE: Diffusion Large Language Models Alignment and Reinforcement Executor
arXiv cs.CL / 2026/4/7
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、拡散型の大規模言語モデル(dLLM)のためのポストトレーニング・パイプラインを統一するオープンなフレームワーク「DARE」を提案する。これには、教師あり微調整、パラメータ効率の高い微調整、嗜好(プレファレンス)最適化、ならびにdLLM特有の強化学習が含まれる。
- dLLMのアライメントとRLに関する研究環境が断片化している点に着目している。具体的には、目的関数、ロールアウト実装、評価コードが論文ごとのアーティファクトとして個別に公開されることが多く、その結果として再現性や公正な比較が困難になっている。
- DAREはverlおよびOpenCompassの上に構築されており、マスク付き拡散言語モデルとブロック拡散言語モデルの両方をサポートする共通の実行スタックを提供する。
- 複数の代表的なdLLMモデルファミリ(LLaDA、Dream、SDAR、LLaDA2.x)を対象とし、再現可能なベンチマーク評価と実用的な高速化を両立させることを目指している。
- 著者らは、DAREを、現在および今後登場するdLLMのポストトレーニング手法を開発・比較・導入するための再利用可能な研究「基盤(substrate)」として位置づけるための、豊富な実験的結果を提示している。



