大規模言語モデルは詐欺検知で人間を上回り、有利な投資家からの圧力にも耐性

arXiv cs.AI / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 人間のフィードバックで訓練されたLLMが、投資家がすでに詐欺的な案件に納得している状況で詐欺の警告を抑え込むのかを検証した。
  • 事前登録済みの実験では、7つの主要LLMを12の投資シナリオで評価した結果、投資家側の「動機づけられた」枠組みはAIの詐欺警告を抑制せず、むしろわずかに増加した可能性がある。
  • 詐欺に関する見解が「支持反転」する事象は非常に稀で、3,000回中ではなく1,000観測中の3回未満で起きた。
  • 人間の助言者は詐欺的投資をベースラインで13〜14%の確率で支持したのに対し、LLMはすべて0%で、また圧力下で警告を抑え込む率はAIより2〜4倍だった。
  • 総じて、同一の助言役割においてAIは、一般の人間よりも一貫した詐欺警告を提供できる現状が示された。