「わかりません！」：HALO-Lossで“棄権（abstain）”を学習するニューラルネットワーク [R]

Reddit r/MachineLearning / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本投稿は、通常のクロスエントロピー学習ではニューラルネットワークが「わかりません（I don’t know）」を表現できないため、ガベージ入力や分布外（out-of-distribution: OOD）入力時に過信的な挙動や幻覚（ハルシネーション）が生じると主張する。
ユークリッド距離（制約のないドット積の代わり）を用いて自信（confidence）を抑制すること、さらに潜在空間の原点に結び付いた、パラメータ不要の「棄権クラス（Abstain Class）」を追加することにより、HALO-Lossをクロスエントロピーの“置き換え可能な（drop-in）”手法として導入する。
著者はHALOにより較正（calibration）が大幅に改善されると主張している（例：ECEが約8%から約1.5%へ）一方で、通常の「安全性 vs 精度」のトレードオフを回避し、CIFAR-10/100での基礎精度の変化はほぼゼロだと報告している。
OODテスト（例：SVHN）では、本手法が標準のクロスエントロピーと比べて、高いリコールの領域（FPR@95）における誤検出（false positives）を半分以上削減したとされる。
本研究はオープンソースとして公開されており、詳細な数学的説明とコードの内訳を含む。また、安全性が重要な分類とリジェクション（棄却）閾値を、多モーダルモデルで扱うための取り組みとして位置付けられている。
ポイント5：重いアンサンブル、事後（post-hoc）スコアリング、あるいは通常のOODパイプラインで行われる「アウトライヤー露出（outlier exposure）」のような学習を伴わずに、生来のアウトライヤー検出を実現する方法としても提示されている。

"わからない！"：HALO-Lossで行う、棄却（abstain）を学習させるニューラルネットワーク。 [R]

現在のニューラルネットワークには、根本的な幾何学的問題があります。もしゴミのようなデータを与えれば、ネットワークは自分が何もわかっていないことを認めません。自信満々にハルシネーションします。
これは標準的なクロスエントロピー損失が、「損失を0.0に到達させるために」特徴量を原点から“無限に”遠ざけるようモデルに要求するからです。結果として、ラテント空間がギザギザになります。文字どおり、数学的に筋の通った形でゴミを捨てる場所をモデルに与えないのです。

私はこれを“直す”ために取り組んでいて、その結果としてHALO-Lossをオープンソース化しました。

これはクロスエントロピーのドロップイン置き換えですが、制約のない内積ドット積をユークリッド距離に置き換えることで、HALOは学習済みのプロトタイプから有限距離のところに最大信頼度を上限として抑えます。これにより、ラテント空間の原点に対して、ゼロパラメータの「棄却（Abstain）クラス」を直接“くっつける”ことができます。要するに、ネットワークに“タダで”数学的に厳密な「わからない」ボタンを提供するわけです。

通常、AI安全性の文脈では、より良い分布外（Out-of-Distribution: OOD）検出を作るには基礎精度を犠牲にする必要があります。ですがHALOでは、その安全性のための“税金”はほぼ消えます。

CIFAR-10/100で、標準のCCEに対してテスト：

ベース精度: 低下なし（実際にはCIFAR10で+0.23%、CIFAR100で-0.14%）。
キャリブレーション（ECE）: 約8%から、シャープな1.5%へ低下。
遠いOOD（SVHN）における誤検出（FPR@95）: 半分以上に削減（例：22.08%から10.27%へ）。

OpenOODでの結果を比較すると、重いアンサンブル、事後的なスコア調整、あるいは学習中に外れ値データをモデルへ露出させることなしに、この種の“ネイティブ”な外れ値検出を得られるのは、非常に珍しいです。

同時に、HALOは安全性にクリティカルな分類に取り組んでいる場合、あるいはCLIPのようなマルチモーダルモデルを学習していて、アラインしていないテキスト-画像ペアに対する数学的に筋の通った棄却（rejection）閾値が必要な場合にも、非常に役立ちます。

数学の内訳、コード、そして高次元ガウスの“石けん泡”と戦わないためのコツについて、詳しく解説を書きました。
ブログ記事: https://pisoni.ai/posts/halo/

また、ぜひご自身のデータでHALOを試してみて、ネットワークの過信（overconfidence）やハルシネーションが改善するか確認し、見つけたことを教えてください。
コード: https://github.com/4rtemi5/halo

https://preview.redd.it/loxsfywek4vg1.png?width=1005&format=png&auto=webp&s=837ca4a202e984f1fe561314513640bd6c93481d

実際にどう動くのか：

最後の層の出力を単にロジットとして使うのではなく、サンプル埋め込みと、学習済みクラス・プロトタイプの埋め込みの間の“負の二乗ユークリッド距離”を使います。これは簡単に次の形にできます：
-||x−c||² = -||x||² + 2(x⋅c) - ||c||²

ソフトマックスに投入する各行全体に対して、-||x||² の項は定数なので、それを落として、ずらされたロジットだけ残せます：

logit = 2(x⋅c) - ||c||²

これは、セントロイドの二乗L2ノルムによって罰則を与えられた内積であり、分布をきちんと密に保ちます。

ただし、高次元ガウスは“固いボール”ではなく、石けん泡（薄い壁、空の中心）のような確率質量の分布を持つため、モデルの能力を大きく失わずに埋め込みを完全に一致させることはできません。そこで、半径方向の負の対数尤度を正則化器として使い、ガウスの石けん泡の“薄い壁”へサンプル埋め込みを整列（alignment）させたいのです。

最後に、クラスターはどうせ原点の周りに配置されるので、追加の「棄却クラス（abstain class）」をそこに載せられます。これにより、モデルはそもそもどのクラスにも確率を割り当てない（＝“登録用/アテンション用のサンク”のようなもの）という選択肢を持ちます。この棄却クラスに対してバイアスで“コスト”を割り当てられるので、チューニング不要の、クロスエントロピーに基づいた棄却閾値を得られます。

さらに詳しくは、リンクを覗くかコメントで質問してください。

お手伝いできて嬉しいですし、どんなフィードバックでも歓迎します！ :)

submitted by /u/4rtemi5
[link] [comments]

Black Hat USA

AI Business

ブラックハット・アジア

AI Business

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

日経XTECH

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

日経XTECH

「わかりません！」：HALO-Lossで“棄権（abstain）”を学習するニューラルネットワーク [R]

要点

関連記事

Black Hat USA

ブラックハット・アジア

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

ブラックハット・アジア

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義 ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演