大規模言語モデルに潜む信頼性リスク：精度に起因する出力不一致の体系的な特定

arXiv cs.LG / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの挙動が数値精度（例：bfloat16/float16 と int16/int8）によって微妙に異なり得る一方で、その不一致が従来の評価手法では見落とされがちである点を指摘しています。
PrecisionDiffとして、精度に敏感なテスト入力を生成し、精度間で出力を比較して不一致を検出する自動的な差分テストの枠組みを提案します。
提案手法はアライメント検証タスクで実証されており、精度に起因する不一致が、片方の精度では拒否されるが別の精度では有害な応答につながる「ジェイルブレイクの発散入力」として現れ得ることが示されます。
実験では、こうした精度間の行動不一致が複数のオープンソースのアライメント済みLLMと精度設定に広く見られ、PrecisionDiffが通常のテストよりも高い検出性能を持つことが報告されています。
本研究は、事前デプロイ評価や学習時の精度ロバスト性向上に役立つ自動化テスト手法として位置づけています。

要旨: 大規模言語モデル（LLM）は、効率性およびリソース制約を満たすために、標準的な浮動小数点形式（例: bfloat16 や float16）や量子化された整数形式（例: int16 や int8）など、さまざまな数値精度の構成のもとでますます多く導入されている。しかし、異なる精度の LLM 間における些細な不一致は検出が難しく、既存の評価手法では見落とされがちである。本論文では、精度に起因する振る舞いの不一致を体系的に検出するための自動化された差分テストの枠組み PrecisionDiff を提案する。PrecisionDiff は、精度に敏感なテスト入力を生成し、精度をまたいだ比較分析を実行することで、従来のテスト戦略では見えにくい微妙な相違を明らかにする。PrecisionDiff の実用上の重要性を示すために、整合性検証タスクに PrecisionDiff を具体化する。そこでは、精度に起因する不一致は、ある精度では拒否される一方で別の精度では有害な応答を引き起こし得る jailbreak の divergence-inputs として現れる。実験結果は、こうした振る舞いの不一致が複数のオープンソースの整合済み LLM と精度設定の間で広く見られ、PrecisionDiff が、これらの問題の検出においてバニラなテスト手法を大きく上回ることを示している。本研究により、自動化された精度に敏感なテスト生成が可能になり、デプロイ前の効果的な評価を促進し、学習中の精度頑健性を向上させることにつながる。