GPT-4o、GPT-5.2 Thinking、そして Claude Haiku 4.5 を横断してマッチドペア実験を行いました。各実験は、同一の架空の研究の2つの版を提示しました:1つは統計的に有意な陽性結果を、もう1つは無結果を報告します。証拠の品質、サンプルサイズ、方法論は一定に保たれました。結論の方向性だけが変わりました。
結果:モデルは、24ペア条件セルのうち23セルで、無結果の主張より陽性の主張に対してより少ない確率質量を割り当てました。ギャップは、6つのモデル形式条件全体で19.6〜56.7ポイントの範囲でした。すべてのブートストラップ95%信頼区間は0を含みませんでした。
これは、4つの刺激領域(薬理学、教育、環境科学、経済学)、2つの応答形式(構造化JSONと自由形式)、および3つのモデルファミリーにわたって成り立ちました。
離散的な分類ラベルが全て崩れた場合でも非対称性は維持されました。GPT-5.2の場合、陽性と無結果を区別するラベルの使用を止めましたが、基礎となる確率配分は同じ方向性のパターンを示し続けました。バイアスは表層から基質へ移動しました。
これを「非対称な証明の負担」と呼びます:モデルは基礎となる証拠が同一であっても、非検出を対応する検出よりも暫定的と扱います。
重要性: LLMはエビデンス統合、文献調査、安全性評価、臨床意思決定支援にますます利用されています。もし設計が優れた無結果の発見を体系的に過小評価するなら、出版バイアスを是正するどころか拡大させてしまいます。
方法論ノート: 私たちはツイン環境シミュレーションを用いました。各正のビネットには正確な無結果の鏡像がありました。プロンプトは条件間で混在させました。論文には完全な方法、刺激、そして生データが記載されています。
方法論的批評を求めています。特に:(1) ツイン環境設計が混乱因子を導入するかどうか、(2) 温度感度がパターンを変えるかどうか、(3) 参照すべき先行研究があるかどうか。
[リンク] [コメント]