要旨: ニューラルネットワークモデルの性能は、破損サンプルの非頑健な特徴に対する信頼性の低い挙動のために悪化します。その不透明な性質ゆえに、この問題に対処するためのモデルの修正は、しばし困難なデータクリーニングとモデル再訓練を必要とし、巨大な計算コストと手動作業のオーバーヘッドを招きます。本研究では、ランク1のモデル編集を活用して、アトリビューション指向のモデル修正フレームワークを構築し、効果的にモデルの信頼性の欠如した挙動を特定し修正します。まず、我々の修正設定を既存のモデル編集と区別し、信頼性の欠如した挙動を修正しつつモデルの性能を保持し、洗浄済みサンプルの大量な使用に頼ることを減らすような定式化を提示します。層間の編集可能性の異質さに端を発するモデル修正のボトルネックをさらに明らかにします。誤挙動の主な原因を標的とするため、層ごとの編集可能性を定量化し、信頼性の欠如の最大の原因となる層を特定するアトリビューション指向の層局在化手法を導入します。大規模な実験により、ニューラルトロージャン、偽相関、および特徴漏洩に観察される信頼性の欠如を修正する際の本手法の有効性が示されます。本手法は、わずか1つのクレンジング済みサンプルでも編集目標を達成できるという卓越した性能を示し、実践的な適用を魅力的にしています。
アトリビューションに基づく信頼性の低いニューラルネットワーク挙動の是正
arXiv cs.AI / 2026/3/18
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、非頑健な特徴量によって引き起こされる信頼性の低いニューラルネットワーク挙動と、データクリーニングおよび再訓練の高コストに対処する。
- アトリビューションに基づく是正を伴うランク-1のモデル編集を導入し、全体の性能を維持しつつ誤動作を特定・修正する。
- 層間での編集可能性の不均一性から生じるボトルネックを特定し、鍵となる層を定量化・標的化するためのアトリビューションに導かれた層の局在化を提案する。
- ニューラル・トロージャン、偽相関、特徴漏洩といったケースで効果を示し、わずか1つのクレンジング済みサンプルだけで編集目標を達成する。

