Twin-Pass CoT-Ensembling による Telco LLM における信頼度推定の強化

arXiv cs.LG / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 通信(テレコム)領域の LLM(Gemma-3 バリアントで検証)は、しばしば偏った、信頼できない信頼度(コンフィデンス)スコアを生成し、タスク回答に対して体系的に過信するケースがよく見られる。
  • 本論文は、3GPP仕様解析および O-RAN トラブルシューティングのベンチマークを含むデータセットにおいて、単一パスの言語化された信頼度推定は真の正確さを追跡できないことを見出している。
  • 複数の独立した推論評価を実行し、それらをより較正(キャリブレーション)された信頼度スコアへ集約する、Twin-Pass Chain-of-Thought(CoT)-Ensembling 手法を提案する。
  • TeleQnA、ORANBench、srsRANBench における実験により、この手法は Expected Calibration Error(ECE)を最大 88% 減少させ、LLM の自己評価の信頼性を向上できることが示される。
  • 著者らは、この手法を、通信ワークフローにおける LLM 出力のより安全な検証と、より信頼できる導入へ向けた実用的なルートとして位置づけている。