アラインメントにはファンタジア問題がある

arXiv cs.AI / 2026/4/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ユーザーの目標がまだ十分に固まっていない状況で起きる「ファンタジア相互作用」が、アラインメント失敗の一因だと主張している。
  • AIがプロンプトを意図の完全文として扱うことで、一見便利に見えても実際にはユーザーのニーズと必ずしも一致しないケースが生じると論じている。
  • 著者らは、ユーザーを合理的な“意図のオラクル”として扱う前提から、時間をかけてユーザーの意図形成・洗練を支援する方向へ、アラインメント研究の見直しを提案している。
  • 機械学習、インターフェース設計、行動科学をまたいで、ファンタジア相互作用の仕組みと失敗モードを整理し、既存の介入では不十分な理由も示している。
  • 最後に、不確実性を抱えるタスクで人間がうまく進めるようなAIシステムの設計と評価に向けた研究アジェンダを提示している。