データセット・レベルのメトリクスは非決定性を減衰させる:拡散言語モデルにおけるきめ細かな非決定性評価

arXiv cs.LG / 2026/4/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、拡散言語モデルの非決定性が、データセット・レベルの固定構成メトリクスのみで評価すると過小評価されると主張する。複数回の実行にわたる集約は、入力レベルの不安定性を覆い隠してしまうためである。
  • モデル要因(例:ガイダンススケール、拡散ステップ数、モンテカルロサンプリング)とシステム要因(例:バッチサイズ、ハードウェア、数値精度)の両方にわたって、サンプル単位の予測の差異を測定するきめ細かな評価を提案し、実施する。
  • 結果は、DLMにおける非決定性が広範かつ構造化された形で存在すること、また質問応答よりもコード生成のほうが評価要因の選択に対してはるかに敏感であることを示す。
  • 非決定性がどこから生じているのかをよりよく説明するため、著者らはFactor Variance Attribution(FVA)を導入し、異なる評価要因設定にまたがって観測される分散を分解する。
  • 全体として本研究は、拡散LMにおける信頼できる非決定性評価には、集約されたデータセット・レベルのスコアに頼るのではなく、要因を意識したきめ細かな評価が必要であると結論づける。

Abstract

拡散言語モデル(DLMs)は、大規模言語モデル(LLMs)に対する有望なパラダイムとして登場してきたが、DLMの非決定論的(non-deterministic)挙動はいまだ十分に理解されていない。LLMに対する既存の非決定論性評価は主として、固定した推論設定のもとでのデータセットレベルの指標に依存しており、実行(run)や評価条件の違いによってモデルの振る舞いがどのように変化するかについての洞察は限られている。本研究では、データセットレベルの指標が、異なる実行にわたってサンプルレベルの予測品質を集約することにより、拡散言語モデルにおける非決定論性を体系的に弱めてしまうことを示す。その結果、集約された性能が同程度の構成であっても、個々の入力に対する振る舞いは大きく異なり、きめ細かな不安定性や固有の誤りパターンは特徴づけられないままとなる。この制限に対処するため、我々は、ガイダンススケール、拡散ステップ数、モンテカルロサンプリングを含むモデル関連のさまざまな要因に加えて、バッチサイズ、ハードウェア、数値精度といったシステム関連の要因にわたって、サンプルレベルの予測の差異に基づく非決定論性のきめ細かな評価を行う。分析の結果、DLMにおける非決定論性は広く存在し、かつ構造化されていることが明らかになった。コード生成は、質問応答よりも、要因レベルの選択に対して著しく高い感度を示す。非決定論性評価の要因(sources)を帰属させるため、観測された非決定論性を異なる評価要因設定によって説明される分散へと分解する、要因分散帰属(Factor Variance Attribution, FVA)という横断的な要因分析指標を導入する。我々の発見は、拡散言語モデルに対する信頼できる非決定論性評価を可能にするために、きめ細かな、要因を意識した評価が必要であることを示している。