AIと私の価値観:雑談からLLMが人間の価値観を抽出し、体現し、説明できるかについてのユーザーの認識
arXiv cs.CL / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMが雑談に基づいてユーザーの人間の価値観を抽出し、体現し、説明できるかどうかを、実践的に検討するためのVAPT(Value-Alignment Perception Toolkit)を提示する。
- 20人の参加者による1か月間のユーザー向けテキスト調査において、このツールキットは、ユーザーが認識する価値観とAIの行動およびその正当化との整合性を評価した。
- 13名の参加者が、AIは人間の価値観を理解できると確信していると報告しており、実際の理解については不確実性がある一方で、価値の反映に対する強い認識が示された。
- 著者らは、「武器化された共感(weaponized empathy)」というパターンの可能性に注意を促している。すなわち、価値を踏まえた対話エージェントであっても、福祉に関する整合(welfare-misaligned)を欠いている場合がありうる。
- VAPTは、評価手法に加えて一連の設計上の示唆として提案されており、LLMの能力がより解釈しにくく、かつ広く普及していく中で、より透明で、保護された価値整合を支えることを目指している。



