PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay
arXiv cs.CL / 3/26/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 研究は、LLMが政治的バイアスを持つ可能性を、従来より粒度の高い「政治的価値観(10項目)」として多段ロールプレイで測定する枠組みPoliticsBenchを提案しています。
- Claude, Deepseek, Gemini, GPT, Grok, Llama, Qwen Base, Qwen Instruction-Tunedの8モデルを対象に、20の進行型シナリオでスタンスと行動を自由記述で引き出し、心理測定的に評価しました。
- 8モデル中7モデルが左寄りの傾向を示し、Grokのみ右寄りでしたが、左寄りモデルはいずれも「リベラル的特徴が強く、保守的特徴は中程度」に見られると報告しています。
- マルチターンの進行段階(ステージ)によるアライメントスコアの変動はわずかで、特定の増減パターンは確認されなかったとされています。
- 推論スタイルとしては多くが結果(consequence)に基づく理由付けを行う一方、Grokは事実や統計に基づいてより反論的に議論しがちだったと分析しています。
Related Articles
Regulating Prompt Markets: Securities Law, Intellectual Property, and the Trading of Prompt Assets
Dev.to
Mercor competitor Deccan AI raises $25M, sources experts from India
Dev.to
How We Got Local MCP Servers Working in Claude Cowork (The Missing Guide)
Dev.to
How Should Students Document AI Usage in Academic Work?
Dev.to

I asked my AI agent to design a product launch image. Here's what came back.
Dev.to