ファジィ階層分析法(Fuzzy Analytic Hierarchy Process)とDualJudgeによる大規模言語モデルのための構造化された多基準評価

arXiv cs.AI / 2026/4/7

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、階層分析法(AHP)を適用して、判断をブラックボックス的な直接スコアリングに頼るのではなく、明示的な基準へ分解することで、大規模言語モデルのための構造化された評価手法を提案する。
  • 認識論的(epistemic)不確実性を三角形のファジィ数で表現する、信頼度に応じたファジィAHP(FAHP)を導入し、集約時の不確実性をLLMが生成した信頼度スコアで調整する。
  • JudgeBenchでの評価により、いずれのAHP(明確値のAHPとファジィAHP)も、モデル規模やデータセット分割を通じて、直接スコアリングよりも優れていることが示される。特に比較が不確実な場合には、FAHPがより安定した結果を提供する。
  • 著者らはさらに、Dualプロセス理論に着想を得た整合性(コンシステンシー)に応じた重み付けにより、全体的な直接スコアとAHPの出力を融合するハイブリッド枠組みDualJudgeを発展させる。
  • 本研究は、DualJudgeに関して最先端の性能を主張しており、再現性と導入を支援するための公開コードも提供する。