PolicyLLM: 大規模言語モデルに向けた公共政策の優れた理解に関する取り組み

arXiv cs.CL / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、公共政策コンテンツを大規模言語モデルがどの程度理解し、推論できるかを評価するための、大規模クロスシステムの米国–中国ベンチマーク「PolicyBench」(21K件)を紹介する。
  • Bloomの分類法に基づき、政策関連の3つの能力――記憶(memorization)、理解(understanding)、適用(application)――を評価し、知識の想起だけでなく現実のシナリオに基づく推論もカバーする。
  • 本研究では、ベンチマークでテストされる異なる認知レベルに対応するエキスパートモジュールを備えた、領域特化型のMixture-of-Expertsモデル「PolicyMoE」を提案する。
  • 結果は、LLMが、純粋な暗記や概念理解よりも、適用志向の政策タスクで比較的良い性能を示すことを示しており、構造化された推論タスクで最も高い精度が得られる。
  • 著者らは、政策理解における現状の限界を指摘し、より信頼性の高い、政策に特化したLLMシステムを構築するための方向性を示す。

Abstract

大規模言語モデル(LLM)は、公的政策の領域を含む現実世界の意思決定へますます統合されつつあります。しかし、政策関連コンテンツを理解し推論する能力については、十分に調査されていません。このギャップを埋めるために、私たちは extbf{ extit{PolicyBench}} を提案します。これは、政策理解を評価する初の大規模クロスシステムベンチマーク(米国-中国)であり、現実の統治における多様性と複雑性を捉えつつ、幅広い政策分野にわたって21K件の事例を含みます。Bloomの分類法に従い、このベンチマークは3つの中核的能力を評価します:(1) extbf{Memorization}:政策知識の事実に基づく想起、(2) extbf{Understanding}:概念的・文脈的推論、(3) extbf{Application}:現実の政策シナリオにおける問題解決です。このベンチマークに基づき、さらに、各認知レベルに対応する専門家モジュールを備えた、領域特化型Mixture-of-Experts(MoE)モデルである extbf{ extit{PolicyMoE}} も提案します。提案モデルは、暗記や概念理解よりも、応用志向の政策タスクでより強い性能を示し、また構造化推論タスクで最高の精度を達成します。本研究の結果は、政策理解における現行LLMの重要な限界を明らかにし、より信頼性の高い政策に特化したモデルへ向けた道筋を示唆します。