LLMエージェントを用いた官僚的なレッドテープに対する市民の感情的反応の異文化シミュレーション

arXiv cs.AI / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMエージェントが官僚的なレッドテープに対して感情的かつ文化的に適切な応答を生成できるかどうかを検証するための評価フレームワークを提案する。
1つのレッドテープ事例を用いたパイロット研究では、検証したモデルが人間の感情的反応との整合が限定的であり、東アジアの文化圏でパフォーマンスがより弱いことが観察される。
本研究では、文化的プロンプト戦略は、人間の感情的反応との整合を有意に改善しないと報告している。
市民の感情的反応をシミュレートし、人間のデータを収集してモデルの改善に役立てるためのインタラクティブ・インターフェースRAMOを導入し、オンラインで公開されている。

要旨: 政策立案の改善は、公共行政における中心的な関心事である。これまでの人間の被験者を用いた研究では、政策実施の過程で市民が規制・手続き上の煩雑さ（red tape）に対して示す感情的反応には、かなりの異文化間差が存在することが明らかになっている。LLMエージェントは、人間らしい反応をシミュレーションし、実験コストを削減できる可能性を提供する一方で、規制・手続き上の煩雑さに対して文化的に適切な感情反応を生成できる能力は、いまだ検証されていない。このギャップに対処するため、我々は、多様な文化的文脈にわたるLLMの規制・手続き上の煩雑さへの感情的反応を評価するための評価フレームワークを提案する。パイロット研究として、我々はこのフレームワークを単一の規制・手続き上の煩雑さシナリオに適用する。我々の結果は、すべてのモデルが人間の感情的反応との整合性が限定的であること、そしてとりわけ東洋文化において性能が弱いことを示している。文化的プロンプト戦略は、整合性の改善に対して概ね効果がないことが分かった。さらに、
\textbf{RAMO} を導入する。これは、市民が規制・手続き上の煩雑さに対して示す感情的反応をシミュレーションするための対話的インターフェースであり、モデルを改善するための人間データを収集することもできる。このインターフェースは https://ramo-chi.ivia.ch で公開されている。