CAMO:不均衡データにおける頑健な言語モデル評価のためのクラス認識型・少数派最適化アンサンブル

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、クラス不均衡が深刻な状況下で多数派クラスが支配することを回避し、言語モデルの評価および予測を改善することを目的としたアンサンブル手法CAMO(Class-Aware Minority-Optimized)を提案する。
  • CAMOは階層的戦略を用い、投票分布、信頼度の校正、モデル間の不確実性を組み合わせることで、過小表現クラスを動的に強化し、少数派の予測を強固にする。
  • 2つの不均衡なドメイン固有ベンチマーク(DIAR-AI/Emotionおよび三値分類のBEA 2025)において、8つの言語モデル(LLMおよびSLMの両方を含む)を用い、ゼロショットと微調整の設定でCAMOを7つの既存のアンサンブル手法と比較する。
  • 結果として、CAMOは洗練された(refined)モデルにおいて最良の厳密なマクロF1スコアを達成し、アンサンブルの有効性はモデルの特性、特にモデル適応が適用された場合に強く依存することが示される。
  • 著者らは、CAMOが不均衡な分類のためのドメインに中立な枠組みであり、現実の偏りのあるデータセットにおける頑健な評価に対して信頼できるアプローチであると主張する。

Abstract

現実世界の分類は、クラスの不均衡によって深刻に妨げられています。というのも、従来のアンサンブルは多数クラスを優先するため、少数クラスの性能が低下し、結果として全体のF1スコアも下がるからです。私たちは、不均衡問題のためのCAMO(Class-Aware Minority-Optimized)と呼ばれる、独自のアンサンブル手法を提案します。CAMOは、投票分布、信頼度のキャリブレーション、モデル間の不確実性を組み込む階層的手順を通じて、過小評価されているクラスを動的に強化しつつ、少数クラスの予測を保持し、さらに増幅します。私たちは、非常に不均衡な2つのドメイン固有ベンチマーク、DIAR-AI/Emotionデータセットと、三値のBEA 2025データセットでCAMOを検証します。8種類の異なる言語モデル(3つのLLMと5つのSLM)を用い、ゼロショットおよびファインチューニング設定のもとで、7つの実証済みのアンサンブルアルゴリズムとベンチマーク比較します。改良したモデルでは、CAMOは一貫して最大の厳密なマクロF1スコアを達成し、新たなベンチマークを確立します。さらに、この利点はモデル適応と協調して機能し、最適なアンサンブルの選択はモデルの特性に依存することを示します。これは、CAMOが不均衡な分類のための信頼できる、ドメインに中立な枠組みであることを証明しています。