OCRR:分布シフト下におけるオンライン修正リカバリのためのベンチマーク

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この論文は、データ分布の変化(新カテゴリ、言い換えクエリ、ドリフトなど)に直面した際に、ユーザーの修正を通じて分類システムがどれだけオンラインで回復できるかを評価する新しいベンチマーク「OCRR」を提案します。
  • OCRRは、コーパスをストリーミングし、オラクルまたは確率的な修正ポリシーを適用しながら評価し、修正回数に応じて「新カテゴリの精度」と「元の分布における精度」の2つの性能曲線を出します。
  • Banking77およびCLINC150での実験では、提案手法(substrate)が、等しいメモリ予算の条件で、次点の既存の継続学習ベースラインを32.6ポイント上回りつつ、新カテゴリ回復(88.7% ± 2.9%)と元分布の保持(95.4% ± 0.8%)の双方を同時に満たす点が示されています。
  • さらに、近似最近傍検索の品質が大きく低下しても(recall@5が10k〜10Mのスケールで0.69から0.23へ劣化)、分類精度は約99%で安定しており、トップk recall指標では予測できない頑健性があることを報告しています。
  • ベンチマークのコードとデータはGitHubで公開されており、オンライン修正リカバリ手法の比較・検証が可能になります。

Abstract

静的ベンチマークは、学習時に固定されたモデルを測定するものです。実運用のシステムでは分布シフトが起きます。新しいカテゴリ、言い換えられたクエリ、そしてドリフトです。さらに、ユーザーによる修正を通じてオンラインで回復する必要があります。しかし、補正ストリーム下での回復速度を測定する既存のベンチマークはありません。私たちはOCRR(Online Correction Recovery Rate:オンライン修正回復率)を導入します。OCRRは、コーパスをストリーミングで分類システムに投入し、誤った予測に対してオラクルまたは確率的な補正を適用し、補正回数に対する2つの曲線(新規クラス精度と元の分布精度)を報告するベンチマークです。私たちは、パレート探索のために、その基盤(substrate)そのものを評価し、さらに5つのファミリーからなる9つのベースラインアルゴリズムに加えて、基盤の7つの有界ストレージ変種も評価します。比較には、標準的なオンライン学習ベースライン(river)と、継続学習手法(EWC、A-GEM、LwF)、検索/パラメトリックなハイブリッド(kNN-LM)、1.5Bパラメータのエンコーダに対するパラメータ効率の高いファインチューニング(DeBERTa-v3-large上でのLoRA)、およびハッシュチェーンで連結された追記専用の基盤(Substrate)を含めます。Banking77およびCLINC150では、オラクルおよび疎な補正ポリシーの下で、基盤は新規クラス精度(88.7 +/- 2.9 %)を同時に回復しつつ、元の分布精度(95.4 +/- 0.8 %)を維持する唯一のシステムであり、同一メモリ予算下で次に優れた公表された継続学習ベースラインを32.6パーセンテージポイント上回ります。さらに、LoRA-on-DeBERTa-v3-largeに対しては保持(retention)で84.6パーセンテージポイント上回ります。加えて、分類精度は、コーパス規模が10 kから10 Mへと広がり、近似最近傍検索のrecall@5が0.69から0.23へ劣化しても、99 %で安定していることを見いだします。これは、基盤のマージン帯の多数決が、純粋なtop-k recall指標では予測できない形で、検索の不完全さに対して頑健であることを示唆します。コードとデータはhttps://github.com/adriangrassi/ocrr-benchmarkで利用可能です。