要旨: 自由記述の調査回答は、構造化された質問では見落とされがちなニュアンスを提供し得る一方で、統計的に分析することが難しい。本研究ではこれに対処するため、In Your Own Words という計算論的フレームワークを提案する。これは自由記述の調査データに対する探索的分析のためのものであり、先行する計算アプローチよりも正確に、自由記述回答から構造化され解釈可能なテーマを識別し、体系的な分析を可能にする。このアプローチの利点を示すために、1,004名の米国参加者による、人種、性別、性的指向に関する自由記述の新しいデータセットに適用する。本手法が学習するテーマには、調査研究における実務上の応用が3つある。第一に、これらのテーマは、既存の調査が捉えない、所属感やアイデンティティの流動性といった顕著な構成概念を掘り起こすことで、将来の調査に追加すべき構造化質問を示唆できる。第二に、これらのテーマは、標準化されたカテゴリ内の異質性を明らかにし、健康、ウェルビーイング、そしてアイデンティティの重要性における追加的な変動を説明する。第三に、これらのテーマは、自身が自己認識するアイデンティティと、他者から知覚されるアイデンティティとの間に存在する体系的な不一致を照らし出し、既存の測定では反映されない誤認のメカニズムを示す。より広く言えば、本フレームワークは多様な調査状況に展開して、自由記述から解釈可能なテーマを特定し、既存の質的手法を補完することができる。
自分の言葉で:自由記述の調査データから解釈可能なテーマを計算的に特定する
arXiv cs.CL / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、探索的分析のために自由記述の調査回答から構造化され解釈可能なテーマを抽出することを目的とした計算フレームワーク「In Your Own Words」を紹介する。
- そのようなテーマを非構造化テキストから特定する既存の計算手法と比べて、精度が向上すると主張している。
- 著者らは、このフレームワークを人種・性別・性的指向について記述した米国の1,004人の参加者からなる新しいデータセットで実証する。
- 学習されたテーマは、より包括的な将来の調査質問の生成に役立つこと、カテゴリー内に存在する異質性を明らかにすること、そして自己申告のアイデンティティと周囲から認識されるアイデンティティの不一致(不整合)を検出することに有用である形で提示される。
- このフレームワークは、定性的手法を補完するために、調査のさまざまな文脈に広く展開可能である位置づけになっている。