不確実性定量化手法の自動設計のための進化的探索

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルに対する不確実性定量化（UQ）手法がしばしば領域固有のヒューリスティックに基づいて手作業で設計されており、スケーラビリティや汎用性を制限しうると主張している。
そこで、本論文では、手作業で設計するのではなく、Pythonプログラムとして符号化された教師なしのUQ手法を自動的に発見する、LLM駆動の進化的探索アプローチを提案する。
原子命題の検証において、進化によって得られたUQ手法は、強力な手作業ベースラインを最大6.7%の相対ROC-AUC改善で上回り、さらに外部分布（out-of-distribution）に対する頑健な汎化性能も維持した。
著者らは、異なるLLMが異なる進化戦略を生成することを見出しており、例えばClaudeは特徴数の多い線形推定量を好む一方で、GPT-oss-120Bはより単純な位置重み付けのスキームへと傾向がある。
また結果は、手法の複雑さの増大が常に有効とは限らず、Sonnet 4.5とOpus 4.5のみが確実に改善をもたらし、Opus 4.6は逆に退行することを示している。これは、モデル挙動と進化的探索との間の微妙な相互作用を示唆している。

要旨: 大規模言語モデル（LLM）のための不確実性定量化（UQ）手法は、主としてドメイン知識とヒューリスティックに基づいて人手で設計されており、そのためスケーラビリティと汎用性が制限されています。本研究では、LLMを活用した進化的探索を適用し、Pythonプログラムとして表現される教師なしのUQ手法を自動的に発見します。原子主張検証の課題において、進化によって得られた手法は、強力な手設計のベースラインを上回り、9つのデータセットにわたり最大6.7%の相対的ROC-AUC向上を達成し、さらに分布外に対しても頑健に汎化します。定性的分析から、異なるLLMが定性的に異なる進化戦略を用いることが明らかになりました。Claudeモデルは一貫して高特徴量数の線形推定器を設計する一方、Gpt-oss-120Bはより単純で解釈可能な位置（ポジショナル）重み付けの枠組みに引き寄せられます。驚くべきことに、性能向上のために手法の複雑さを増やしたことを確実に活用できたのはSonnet 4.5とOpus 4.5のみでした――Opus 4.6は、前作に比べて予期しない退行（回帰）を示しています。全体として、本研究の結果は、LLMを活用した進化的探索が、自動化された、解釈可能なハルシネーション検出器の設計に向けた有望なパラダイムであることを示しています。

Black Hat Asia

AI Business

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

不確実性定量化手法の自動設計のための進化的探索

要点

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ