反証に失敗する:言語モデルにおける確認バイアスを評価し、軽減する

arXiv cs.LG / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、人間の心理学における「ルール発見」パラダイムを大規模言語モデルに適用し、数の3つ組に対するインタラクティブなフィードバックループを通して、言語モデルが確認バイアスを示すかどうかを検証する。