[R] 大規模言語モデル(LLMs)が陽性結果と無結果に同じ証拠基準を適用しているかを検証したが、そうではなかった。

Reddit r/MachineLearning / 2026/3/18

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、結論の方向性(陽性 vs 無結論)のみが異なる同一の架空研究を用い、GPT-4o、GPT-5.2 Thinking、Claude Haiku 4.5 の間でマッチドペア実験を実施した。
  • 24個の対条件セルのうち23で、モデルは無結論より陽性結論に対してより低い確率を割り当てた。差は19.6ポイントから56.7ポイントの範囲で、ブートストラップ法による95%信頼区間はゼロを含まなかった。
  • 証拠負担の非対称性は、4つの領域、2つの応答形式、3つのモデルファミリーにまたがって持続し、GPT-5.2 では陽性と無結論を区別する独自のラベルの使用を停止したが、割り当ての方向性は残っていた。
  • 彼らはこれを証拠負担の非対称性と呼び、エビデンス統合、安全性評価、臨床意思決定支援における出版バイアスを増幅する可能性があると警告している。

GPT-4o、GPT-5.2 Thinking、そして Claude Haiku 4.5 を横断してマッチドペア実験を行いました。各実験は、同一の架空の研究の2つの版を提示しました:1つは統計的に有意な陽性結果を、もう1つは無結果を報告します。証拠の品質、サンプルサイズ、方法論は一定に保たれました。結論の方向性だけが変わりました。

結果:モデルは、24ペア条件セルのうち23セルで、無結果の主張より陽性の主張に対してより少ない確率質量を割り当てました。ギャップは、6つのモデル形式条件全体で19.6〜56.7ポイントの範囲でした。すべてのブートストラップ95%信頼区間は0を含みませんでした。

これは、4つの刺激領域(薬理学、教育、環境科学、経済学)、2つの応答形式(構造化JSONと自由形式)、および3つのモデルファミリーにわたって成り立ちました。

離散的な分類ラベルが全て崩れた場合でも非対称性は維持されました。GPT-5.2の場合、陽性と無結果を区別するラベルの使用を止めましたが、基礎となる確率配分は同じ方向性のパターンを示し続けました。バイアスは表層から基質へ移動しました。

これを「非対称な証明の負担」と呼びます:モデルは基礎となる証拠が同一であっても、非検出を対応する検出よりも暫定的と扱います。

重要性: LLMはエビデンス統合、文献調査、安全性評価、臨床意思決定支援にますます利用されています。もし設計が優れた無結果の発見を体系的に過小評価するなら、出版バイアスを是正するどころか拡大させてしまいます。

方法論ノート: 私たちはツイン環境シミュレーションを用いました。各正のビネットには正確な無結果の鏡像がありました。プロンプトは条件間で混在させました。論文には完全な方法、刺激、そして生データが記載されています。

方法論的批評を求めています。特に:(1) ツイン環境設計が混乱因子を導入するかどうか、(2) 温度感度がパターンを変えるかどうか、(3) 参照すべき先行研究があるかどうか。

論文: https://zenodo.org/records/18867694

投稿者: /u/galigirii
[リンク] [コメント]