要旨:
大規模言語モデル(LLMs)は、特にラベルが乏しい設定において、自動審判者および合成ラベラーとしてますます活用されています。とはいえ、これらのシステムは確率的で、しばしば過信的であるため、外部の正解データが限られている場合にはデプロイの判断を難しくします。私たちは、制御された入力介入に基づく実用的な較正プロトコルを提案します。ノイズの厳度が増すと、タスクの性能は統計的に有意な劣化傾向を示すべきです。私たちは、反復試行における傾きベースの仮説検定を用いてこれを実現します。表形式データには信号対雑音比(SNR)摂動を、テキストデータには語彙摂動を用います。UCIの表形式ベンチマークと4つのテキスト分類データセットにおいて、明確なモダリティ依存の挙動を見出しました。私たちの結果はモダリティのギャップを明らかにします。テキストベースの審判は予測可能に劣化しますが、表データセットの大多数は、顕著な信号対ノイズの低減にも関わらず統計的に有意な性能劣化が見られません。興味深いことに、ノイズ介入に対して鈍感なデータセットではモデルの性能がより低いことを発見しました。分布シフト下での堅牢なLLMジャッジの較正のための再現可能な方法論と報告プロトコルを提示します。
ノイズ応答の較正: LLMジャッジの因果介入プロトコル
arXiv cs.LG / 2026/3/19
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- LLMs は自動ジャッジや合成ラベラーとしてますます利用されているが、その確率的性質と過信が、外部の正解値が限られている場合の展開を複雑にしている。
- 著者らは、制御された入力介入に基づく実用的な較正プロトコルを提案し、ノイズの強度を高めるほどタスク性能が統計的に有意に低下するべきだと主張し、それを繰り返し試行にわたる傾きベースの仮説検定で評価する。
- 表データには SNR摂動を、テキストデータには語彙的摂動を組み込み、このアプローチを UCI の表データベンチマークと4つのテキスト分類データセットで検証し、モダリティ依存の挙動を明らかにした。
- モダリティ間ギャップが観察される。テキストベースのジャッジは予測可能に劣化する一方で、多くの表データセットではノイズ下で有意な劣化を示さない。さらに本研究は、分布シフト下での堅牢な LLM ジャッジの較正のための再現性のある方法論と報告プロトコルを提供する。」



