DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

arXiv cs.CL / 2026/4/7

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散型の大規模言語モデル(dLLM)のためのポストトレーニング・パイプラインを統一するオープンなフレームワーク「DARE」を提案する。これには、教師あり微調整、パラメータ効率の高い微調整、嗜好(プレファレンス)最適化、ならびにdLLM特有の強化学習が含まれる。
  • dLLMのアライメントとRLに関する研究環境が断片化している点に着目している。具体的には、目的関数、ロールアウト実装、評価コードが論文ごとのアーティファクトとして個別に公開されることが多く、その結果として再現性や公正な比較が困難になっている。
  • DAREはverlおよびOpenCompassの上に構築されており、マスク付き拡散言語モデルとブロック拡散言語モデルの両方をサポートする共通の実行スタックを提供する。
  • 複数の代表的なdLLMモデルファミリ(LLaDA、Dream、SDAR、LLaDA2.x)を対象とし、再現可能なベンチマーク評価と実用的な高速化を両立させることを目指している。
  • 著者らは、DAREを、現在および今後登場するdLLMのポストトレーニング手法を開発・比較・導入するための再利用可能な研究「基盤(substrate)」として位置づけるための、豊富な実験的結果を提示している。

Abstract

拡散型大規模言語モデル(dLLMs)は、主流の自己回帰モデルに対する有力な代替として登場しつつあります。従来の「厳密に逐次的なトークン生成」ではなく、反復的な非ノイズ化(デノイジング)と並列生成のダイナミクスによって置き換えるからです。しかし、そのオープンソースのエコシステムはモデルファミリー間、特にポストトレーニングのパイプライン間で断片化したままです。具体的には、強化学習の目的関数、ロールアウトの実装、評価スクリプトが、論文ごとに固有のコードベースとして公開されることが多いのです。この断片化は研究の反復を遅らせ、再現のためのエンジニアリング負担を増大させ、アルゴリズム間での公平な比較を困難にします。私たちは、ポストトレーニングおよびdLLMの評価のためのオープンなフレームワークである\textbf{DARE}(\textbf{d}LLMs \textbf{A}lignment and \textbf{R}einforcement \textbf{E}xecutor)を提案します。verl~\cite{sheng2024hybridflow} と OpenCompass~\cite{2023opencompass} の上に構築されたDAREは、マスク拡散言語モデルとブロック拡散言語モデルの両方について、共通の実行スタックのもとで、教師あり微調整、パラメータ効率的微調整、嗜好(プレファレンス)最適化、およびdLLM固有の強化学習を統合します。LLaDA、Dream、SDAR、LLaDA2.x を含む代表的なモデルファミリーにわたって、DAREは幅広いアルゴリズムの適用範囲を提供し、再現可能なベンチマーク評価と実用的な高速化を実現します。大規模な実証結果は、DAREが、現在および新たに登場するdLLMに対するポストトレーニング手法を開発・比較・展開するための、再利用可能な研究基盤として機能することを示しています。