反証に失敗する:言語モデルにおける確認バイアスを評価し、軽減する
arXiv cs.LG / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、人間の心理学における「ルール発見」パラダイムを大規模言語モデルに適用し、数の3つ組に対するインタラクティブなフィードバックループを通して、言語モデルが確認バイアスを示すかどうかを検証する。
arXiv cs.LG / 2026/4/6