データセット・レベルのメトリクスは非決定性を減衰させる:拡散言語モデルにおけるきめ細かな非決定性評価
arXiv cs.LG / 2026/4/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、拡散言語モデルの非決定性が、データセット・レベルの固定構成メトリクスのみで評価すると過小評価されると主張する。複数回の実行にわたる集約は、入力レベルの不安定性を覆い隠してしまうためである。
- モデル要因(例:ガイダンススケール、拡散ステップ数、モンテカルロサンプリング)とシステム要因(例:バッチサイズ、ハードウェア、数値精度)の両方にわたって、サンプル単位の予測の差異を測定するきめ細かな評価を提案し、実施する。
- 結果は、DLMにおける非決定性が広範かつ構造化された形で存在すること、また質問応答よりもコード生成のほうが評価要因の選択に対してはるかに敏感であることを示す。
- 非決定性がどこから生じているのかをよりよく説明するため、著者らはFactor Variance Attribution(FVA)を導入し、異なる評価要因設定にまたがって観測される分散を分解する。
- 全体として本研究は、拡散LMにおける信頼できる非決定性評価には、集約されたデータセット・レベルのスコアに頼るのではなく、要因を意識したきめ細かな評価が必要であると結論づける。