非ユークリッド距離層を用いた調和損失の再考
arXiv cs.AI / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、ニューラルネットワークの訓練におけるユークリッド距離を超える幅広い距離指標を体系的に評価することにより、調和損失を拡張する。
- 著者らは、ビジョンバックボーンおよび大規模言語モデルに対して、性能・解釈性・持続可能性の3つの観点から、距離に合わせた調和損失を評価する。
- ビジョンタスクでは、コサイン距離が最も有利なトレードオフを提供し、精度を一貫して向上させつつ炭素排出を削減する。一方、Bray-CurtisおよびMahalanobisは、さまざまな効率コストで解釈性をさらに高める。
- 言語モデルでは、コサインベースの調和損失が勾配および学習の安定性を改善し、表現構造を強化し、クロスエントロピー頭およびユークリッド頭と比較して炭素排出量を削減する。
- 本論文は、匿名化されたOpen Scienceリンクでコードを共有することにより、再現性の確保に資する資源を提供している。
クロスエントロピー損失は長い間、深層ニューラルネットワークの訓練における標準的な選択肢であったが、解釈性の限界、重みの無制限な成長、訓練ダイナミクスを高コスト化する非効率性といった欠点がある。調和損失はユークリッド幾何学に基づく距離ベースの代替手法で、解釈性を向上させ、groking(テストセットでの遅延一般化)などの現象を緩和する。しかし、調和損失の研究は狭い範囲にとどまり、Euclidean distanceのみが検討され、計算効率性や持続可能性の体系的な評価は行われていなかった。我々は、Euclidean距離の代替として、広範な距離指標を体系的に調査することにより、調和損失を拡張する。視覚バックボーンと大規模言語モデルの両方に対して、距離に合わせた調和損失を総合的に評価する。我々の分析は、モデルの性能・解釈性・持続可能性の3つの観点による評価を軸にしている。視覚タスクでは、コサイン距離が最も有利なトレードオフを提供し、精度を一貫して向上させつつ炭素排出を削減する。一方、Bray-CurtisおよびMahalanobisは、さまざまな効率コストで解釈性をさらに高める。言語モデルでは、コサインベースの調和損失が勾配と学習の安定性を改善し、表現構造を強化し、クロスエントロピーおよびユークリッド頭と比較して炭素排出量を削減する。我々のコードは以下の匿名化されたOpen Scienceリンクで公開している:https://anonymous.4open.science/r/rethinking-harmonic-loss-5BAB/。




