LLMのファンクションコーリングにおける不確実性定量化(UQ)

arXiv cs.CL / 2026/4/28

📰 ニュースModels & Research

要点

  • 本論文は、取り返しのつかない処理(送金やデータ削除など)を実行する前に、LLMの自信を評価できるようにするため、Uncertainty Quantification(UQ)をLLMのファンクションコーリングに適用する方法を扱っています。
  • 著者らは、一般的な質問応答ではなく「LLMファンクションコーリング」に特化してUQ手法を評価する、初の試みだとしています。
  • ファンクションコーリングの状況では、Semantic EntropyのようなマルチサンプルUQが、シンプルなシングルサンプルUQよりも明確な優位性を持たないことを示しています。
  • 改善策として、マルチサンプル手法ではabstract syntax tree(AST)に基づいて関数呼び出し出力をクラスタリングし、シングルサンプル手法では対数itベースの不確実性スコア計算に「意味的に有意なトークンだけ」を使うことが有効だと述べています。
  • 結果として、ファンクションコーリング出力の構造を活用することで、誤ったツール使用のリスク低減につながる自信推定が改善できることを示唆しています。

要旨: 大規模言語モデル(LLM)は、現実世界のタスクを自律的に解決するためにますます導入されている。これにおける重要な要素の一つが、LLMファンクションコーリング(Function-Calling)パラダイムであり、LLMにツール利用の能力を持たせるために広く用いられているアプローチである。しかし、LLMが関数を不正確に呼び出してしまうと、特にその影響が不可逆である場合、たとえば送金やデータの削除のように、深刻な結果を招き得る。したがって、関数呼び出しを実行する前に、それがタスクを正しく解決できるというLLMの自信(確信度)を考慮することが極めて重要である。不確実性定量化(Uncertainty Quantification: UQ)手法は、この自信を定量化し、誤った可能性のある関数呼び出しを防ぐために用いることができる。本研究では、我々の知る限り、LLMファンクションコーリング(FC)に対するUQ手法の初めての評価を提示する。Semantic Entropy などの多サンプルUQ手法は、自然言語のQ&Aタスクにおいて高い性能を示すものの、FCの状況では、それが単純な単一サンプルUQ手法に比べて明確な優位性を提供しないことがわかった。さらに、この設定においては、FC出力の特性を活用して既存のUQ手法の性能を向上できることも見いだした。具体的には、多サンプルUQ手法は、抽象構文木(AST)パースに基づいてFC出力をクラスタリングすることで恩恵を受ける。一方、単一サンプルUQ手法は、対数it(logit)ベースの不確実性スコアを計算する際に、意味的に有意なトークンのみを選択することで改善できる。