| 現在のニューラルネットワークには、根本的な幾何学的問題があります。もしゴミのようなデータを与えれば、ネットワークは自分が何もわかっていないことを認めません。自信満々にハルシネーションします。 私はこれを“直す”ために取り組んでいて、その結果としてHALO-Lossをオープンソース化しました。 これはクロスエントロピーのドロップイン置き換えですが、制約のない内積ドット積をユークリッド距離に置き換えることで、HALOは学習済みのプロトタイプから有限距離のところに最大信頼度を上限として抑えます。これにより、ラテント空間の原点に対して、ゼロパラメータの「棄却(Abstain)クラス」を直接“くっつける”ことができます。要するに、ネットワークに“タダで”数学的に厳密な「わからない」ボタンを提供するわけです。 通常、AI安全性の文脈では、より良い分布外(Out-of-Distribution: OOD)検出を作るには基礎精度を犠牲にする必要があります。ですがHALOでは、その安全性のための“税金”はほぼ消えます。 CIFAR-10/100で、標準のCCEに対してテスト:
OpenOODでの結果を比較すると、重いアンサンブル、事後的なスコア調整、あるいは学習中に外れ値データをモデルへ露出させることなしに、この種の“ネイティブ”な外れ値検出を得られるのは、非常に珍しいです。 同時に、HALOは安全性にクリティカルな分類に取り組んでいる場合、あるいはCLIPのようなマルチモーダルモデルを学習していて、アラインしていないテキスト-画像ペアに対する数学的に筋の通った棄却(rejection)閾値が必要な場合にも、非常に役立ちます。 数学の内訳、コード、そして高次元ガウスの“石けん泡”と戦わないためのコツについて、詳しく解説を書きました。 また、ぜひご自身のデータでHALOを試してみて、ネットワークの過信(overconfidence)やハルシネーションが改善するか確認し、見つけたことを教えてください。 実際にどう動くのか: 最後の層の出力を単にロジットとして使うのではなく、サンプル埋め込みと、学習済みクラス・プロトタイプの埋め込みの間の“負の二乗ユークリッド距離”を使います。これは簡単に次の形にできます: ソフトマックスに投入する各行全体に対して、-||x||² の項は定数なので、それを落として、ずらされたロジットだけ残せます: logit = 2(x⋅c) - ||c||² これは、セントロイドの二乗L2ノルムによって罰則を与えられた内積であり、分布をきちんと密に保ちます。 ただし、高次元ガウスは“固いボール”ではなく、石けん泡(薄い壁、空の中心)のような確率質量の分布を持つため、モデルの能力を大きく失わずに埋め込みを完全に一致させることはできません。そこで、半径方向の負の対数尤度を正則化器として使い、ガウスの石けん泡の“薄い壁”へサンプル埋め込みを整列(alignment)させたいのです。 最後に、クラスターはどうせ原点の周りに配置されるので、追加の「棄却クラス(abstain class)」をそこに載せられます。これにより、モデルはそもそもどのクラスにも確率を割り当てない(=“登録用/アテンション用のサンク”のようなもの)という選択肢を持ちます。この棄却クラスに対してバイアスで“コスト”を割り当てられるので、チューニング不要の、クロスエントロピーに基づいた棄却閾値を得られます。 さらに詳しくは、リンクを覗くかコメントで質問してください。 お手伝いできて嬉しいですし、どんなフィードバックでも歓迎します! :) [link] [comments] |
「わかりません!」:HALO-Lossで“棄権(abstain)”を学習するニューラルネットワーク [R]
Reddit r/MachineLearning / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本投稿は、通常のクロスエントロピー学習ではニューラルネットワークが「わかりません(I don’t know)」を表現できないため、ガベージ入力や分布外(out-of-distribution: OOD)入力時に過信的な挙動や幻覚(ハルシネーション)が生じると主張する。
- ユークリッド距離(制約のないドット積の代わり)を用いて自信(confidence)を抑制すること、さらに潜在空間の原点に結び付いた、パラメータ不要の「棄権クラス(Abstain Class)」を追加することにより、HALO-Lossをクロスエントロピーの“置き換え可能な(drop-in)”手法として導入する。
- 著者はHALOにより較正(calibration)が大幅に改善されると主張している(例:ECEが約8%から約1.5%へ)一方で、通常の「安全性 vs 精度」のトレードオフを回避し、CIFAR-10/100での基礎精度の変化はほぼゼロだと報告している。
- OODテスト(例:SVHN)では、本手法が標準のクロスエントロピーと比べて、高いリコールの領域(FPR@95)における誤検出(false positives)を半分以上削減したとされる。
- 本研究はオープンソースとして公開されており、詳細な数学的説明とコードの内訳を含む。また、安全性が重要な分類とリジェクション(棄却)閾値を、多モーダルモデルで扱うための取り組みとして位置付けられている。
- ポイント5:重いアンサンブル、事後(post-hoc)スコアリング、あるいは通常のOODパイプラインで行われる「アウトライヤー露出(outlier exposure)」のような学習を伴わずに、生来のアウトライヤー検出を実現する方法としても提示されている。




