調査回答生成:大規模言語モデルでインシリコに閉形式のアンケート回答を生成する

arXiv cs.CL / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMが主に自由記述を生成するよう訓練されている一方で、インシリコで閉形式のアンケート回答を作る「Survey Response Generation(SRG)方法」が予測回答の質にどう影響するかを体系的に検証します。
  • 32百万件のシミュレーション回答を用い、4つの政治的態度に関するアンケート課題と10のオープンウェイト・言語モデルに対して、8種類のSRG手法を比較します。
  • SRG手法の選択は、個人レベルだけでなくサブ集団レベルでも、予測回答との整合性(アラインメント)に大きな差を生むことが示されます。
  • 全体としては「Restricted Generation Methods」が最も良い性能を示し、推論(reasoning)出力の付与は整合性の改善に一貫して寄与しないことが分かります。
  • 著者らは、LLMでアンケート回答をシミュレーションする際のSRG手法の選び方・適用方法について、実用的な推奨事項を提示します。

Abstract

大規模言語モデル(LLM)を用いた人間の調査回答の多くのインシリコ・シミュレーションは、閉じた選択肢の調査回答の生成に焦点を当てています。一方で、LLMは一般に、開いた形式のテキストを生成するように訓練されます。これまでの研究では、LLMによる閉じた選択肢の調査回答を生成するために多様な手法が用いられてきましたが、標準的な実務として確立された手法はまだ特定されていません。本論文では、さまざまな「調査回答生成手法」が、予測される調査回答に与える影響を体系的に調査します。8つの調査回答生成手法、4つの政治的態度に関する調査、10のオープンウェイト言語モデルにわたって、3200万件のシミュレーション調査回答の結果を提示します。個人レベルおよび下位集団レベルの双方において、調査回答生成手法間で整合性に有意な差が見られることを確認しました。結果は、全体としては制限付き生成手法(Restricted Generation Methods)が最も良好であり、推論出力は整合性の改善に一貫して寄与しないことを示しています。本研究は、調査回答生成手法がシミュレーション調査回答に与える重大な影響を明らかにし、調査回答生成手法の適用に関する実践的な推奨事項を開発します。