Remask、置き換えないで：マスク付き拡散言語モデルにおけるトークン対マスクの改良（Token-to-Mask Refinement）

arXiv cs.CL / 2026/4/22

📰 ニュースModels & Research

共有:

要点

本論文は、マスク付き拡散言語モデルが Token-to-Token（T2T）編集で自らの誤りを修正する仕組みを分析し、このルールに内在する3つの構造的な失敗パターンを特定する。
代替として、Token-to-Mask（T2M）リマスキングを提案し、疑わしい位置をマスク状態にリセットして次のノイズ除去ステップで再予測できるようにする。
T2Mは学習不要で編集手順のみを変更し、新たなパラメータを追加しないほか、リマスキングの実行判断に3つの検出ヒューリスティックを併用する。
8つのベンチマークで、T2Mは正確なトークン出力を必要とするタスクにおいて精度を向上させ、最大の改善はCMATHで+5.92ポイントとなり、最終段の「last-mile」崩れた最終解答の誤りの大きな割合を修復する。
さらに著者らは、誤ったコミット済みトークンよりもマスクの条件付け信号が有効である理由について理論的な説明も提示する。

Abstract

LLaDA2.1 などのマスク付き拡散言語モデルは、自身の生成エラーを修正するために Token-to-Token（T2T）編集に依存しています。異なるトークンが信頼度の閾値を超えるたびに、コミットされたトークンが上書きされます。この規則には、3つの構造的な失敗モードがあることを見出しました。代替トークンのうち単一のものが十分に確信できない場合、トリガーは発火できません。置換は誤りを含んでいる可能性のある文脈のもとで計算されます。そして、T2T ストリームの学習に用いる一様な摂動は、推論時にモデルが実際に犯す、首尾一貫した意味的にもっともらしい誤りを再現しません。代替として、Token-to-Mask（T2M）によるリマスキングを提案します。疑わしいトークンを新しい推測で上書きするのではなく、T2M は位置をマスク状態にリセットし、次のデノイズステップで分布内文脈からそれを再予測できるようにします。この方法は学習不要で、編集ルールのみを変更し、新たなパラメータは導入しません。これを3つの検出ヒューリスティックと組み合わせ、誤ったトークンよりマスクの方がより良い条件付け信号である理由について、短い理論的説明を示します。8つのベンチマークにおいて、T2M は正確なトークン単位の出力を必要とするタスクで精度を向上させます。最大の改善は CMATH で +5.92 ポイントです。ここでは、ベースラインの誤りの 79.9% をラストマイルの破損（正しい推論に続いて、最終回答が判別不能に化けること）に起因するとし、T2M はこれらのケースの 41.3% を修復します。