不確実性定量化手法の自動設計のための進化的探索

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルに対する不確実性定量化(UQ)手法がしばしば領域固有のヒューリスティックに基づいて手作業で設計されており、スケーラビリティや汎用性を制限しうると主張している。
  • そこで、本論文では、手作業で設計するのではなく、Pythonプログラムとして符号化された教師なしのUQ手法を自動的に発見する、LLM駆動の進化的探索アプローチを提案する。
  • 原子命題の検証において、進化によって得られたUQ手法は、強力な手作業ベースラインを最大6.7%の相対ROC-AUC改善で上回り、さらに外部分布(out-of-distribution)に対する頑健な汎化性能も維持した。
  • 著者らは、異なるLLMが異なる進化戦略を生成することを見出しており、例えばClaudeは特徴数の多い線形推定量を好む一方で、GPT-oss-120Bはより単純な位置重み付けのスキームへと傾向がある。
  • また結果は、手法の複雑さの増大が常に有効とは限らず、Sonnet 4.5とOpus 4.5のみが確実に改善をもたらし、Opus 4.6は逆に退行することを示している。これは、モデル挙動と進化的探索との間の微妙な相互作用を示唆している。

要旨: 大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、主としてドメイン知識とヒューリスティックに基づいて人手で設計されており、そのためスケーラビリティと汎用性が制限されています。本研究では、LLMを活用した進化的探索を適用し、Pythonプログラムとして表現される教師なしのUQ手法を自動的に発見します。原子主張検証の課題において、進化によって得られた手法は、強力な手設計のベースラインを上回り、9つのデータセットにわたり最大6.7%の相対的ROC-AUC向上を達成し、さらに分布外に対しても頑健に汎化します。定性的分析から、異なるLLMが定性的に異なる進化戦略を用いることが明らかになりました。Claudeモデルは一貫して高特徴量数の線形推定器を設計する一方、Gpt-oss-120Bはより単純で解釈可能な位置(ポジショナル)重み付けの枠組みに引き寄せられます。驚くべきことに、性能向上のために手法の複雑さを増やしたことを確実に活用できたのはSonnet 4.5とOpus 4.5のみでした――Opus 4.6は、前作に比べて予期しない退行(回帰)を示しています。全体として、本研究の結果は、LLMを活用した進化的探索が、自動化された、解釈可能なハルシネーション検出器の設計に向けた有望なパラダイムであることを示しています。