[MIT] RLCR：AIモデルに「わからない」を言わせる方法

Reddit r/LocalLLaMA / 2026/5/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

MIT CSAILの研究者は、最先端の推論モデルに見られる過度な確信が、誤っている場合でも正解時と同じ揺るぎない確信で回答してしまう“特定の訓練上の欠陥”に起因すると特定しました。
精度を落とさずにこの問題を解決する手法として、RLCRを提案しています。
この研究は、信頼度（確信度）のキャリブレーションが訓練プロセスの結果として現れるという捉え方を示し、必要に応じて「わからない（I'm not sure）」のように不確実性を表明できるようにすることを目指しています。
度の高い説得力を持つAIシステムにおける信頼性の重要課題に直接取り組むことで、モデルの出力をユーザーが解釈する方法の改善につながる可能性があります。

自信は説得力がある。しかし、AIシステムにおいてはしばしば誤解を招く。

現在最も能力の高い推論モデルの多くは、部屋で最も大きな声の持ち主が備えている特性を共有している。つまり、それが正しいのか当て推量なのかにかかわらず、すべての回答を同じ揺るぎない確信をもって提示するのだ。MITの計算機科学・人工知能研究所（CSAIL）の研究者たちは、この過度の自信が、これらのモデルが訓練される方法にある特定の欠陥に起因していることを、いまや突き止めた。そして、精度を一切犠牲にすることなくそれを修正する手法を開発した。

投稿者： /u/Zyj
[link] [comments]