広告

AIと私の価値観:雑談からLLMが人間の価値観を抽出し、体現し、説明できるかについてのユーザーの認識

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMが雑談に基づいてユーザーの人間の価値観を抽出し、体現し、説明できるかどうかを、実践的に検討するためのVAPT(Value-Alignment Perception Toolkit)を提示する。
  • 20人の参加者による1か月間のユーザー向けテキスト調査において、このツールキットは、ユーザーが認識する価値観とAIの行動およびその正当化との整合性を評価した。
  • 13名の参加者が、AIは人間の価値観を理解できると確信していると報告しており、実際の理解については不確実性がある一方で、価値の反映に対する強い認識が示された。
  • 著者らは、「武器化された共感(weaponized empathy)」というパターンの可能性に注意を促している。すなわち、価値を踏まえた対話エージェントであっても、福祉に関する整合(welfare-misaligned)を欠いている場合がありうる。
  • VAPTは、評価手法に加えて一連の設計上の示唆として提案されており、LLMの能力がより解釈しにくく、かつ広く普及していく中で、より透明で、保護された価値整合を支えることを目指している。

Abstract

AIは人間の価値を理解しているのでしょうか?これはなお未解決の哲学的問いでありながらも、私たちは実務的な立場を取り、VAPT(Value-Alignment Perception Toolkit:価値整合性知覚ツールキット)を導入します。これにより、LLMが人々の価値をどのように反映するのか、そして人々がそれらの反映をどのように判断するのかを研究します。20人の参加者が1か月間チャットボットにテキストで相談し、その後、ツールキットによる2時間のインタビューに参加しました。そのインタビューでは、AIが(価値に関する詳細を取り出す/価値に導かれた意思決定を行う/価値を裏づける根拠を提示する)能力を評価しました。最終的に13人の参加者は、AIが人間の価値を理解できると確信して私たちの研究を終えました。そこで私たちは「武器化された共感(weaponized empathy)」について警告します。これは、価値を意識した(value-aware)一方で、福祉との整合が取れていない(welfare-misaligned)会話型エージェントとのやり取りの中で生じうる設計パターンです。VAPTは、AIシステムにおける価値整合性を評価する新しい方法を提供します。さらに、AIの能力が今後ますます理解しにくく、遍在し、そしてポストヒューマン的になるにつれて、透明性とセーフガードを備えつつ評価し、責任を持ってAIシステムを構築するための設計上の示唆も提供します。

広告