PolicyLLM: 大規模言語モデルに向けた公共政策の優れた理解に関する取り組み
arXiv cs.CL / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、公共政策コンテンツを大規模言語モデルがどの程度理解し、推論できるかを評価するための、大規模クロスシステムの米国–中国ベンチマーク「PolicyBench」(21K件)を紹介する。
- Bloomの分類法に基づき、政策関連の3つの能力――記憶(memorization)、理解(understanding)、適用(application)――を評価し、知識の想起だけでなく現実のシナリオに基づく推論もカバーする。
- 本研究では、ベンチマークでテストされる異なる認知レベルに対応するエキスパートモジュールを備えた、領域特化型のMixture-of-Expertsモデル「PolicyMoE」を提案する。
- 結果は、LLMが、純粋な暗記や概念理解よりも、適用志向の政策タスクで比較的良い性能を示すことを示しており、構造化された推論タスクで最も高い精度が得られる。
- 著者らは、政策理解における現状の限界を指摘し、より信頼性の高い、政策に特化したLLMシステムを構築するための方向性を示す。




