軽量埋め込み+例の再ランキングで(厳格なフル学習プロトコルにより)BANKING77公式テスト分割で94.42%

Reddit r/MachineLearning / 2026/4/7

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この投稿では、LLMを使用せず、軽量な埋め込みベースの分類器に「例の再ランキング」手順を組み合わせた手法により、公式のBANKING77 PolyAIテスト分割で94.42%の精度を達成したことを報告している。
  • 厳格なフル学習プロトコルを強調している。具体的には、公式トレーニングセットのみを対象に、レシピ選択とハイパーパラメータ調整を5-foldの層化CVで行い、その後、公式トレーニングデータの100%で再学習してから、保持されたテスト分割で最終評価を1回行う。
  • 報告されている指標には、Macro-F1が0.9441、モデルサイズが約68 MiB(FP32)、推論レイテンシが1クエリあたり約225 msが含まれる。
  • 著者は、この結果が一般に引用される93.83%のベースラインを+0.59ポイント改善したと主張しており、公開リーダーボード上では現時点で明確な2位で、現在掲げられているSOTA(94.94%)から0.52pp遅れている位置づけになっている。
[R] 軽量埋め込み+例による再ランキング(厳密な全学習プロトコル)での BANKING77 公式テスト分割における 94.42%

BANKING77(77の細粒度な銀行意図) は、確立されたベンチマークですが、ますます飽和してきています。

軽量な埋め込みベースの分類器+例による再ランキング手法(LLMは使用していません)でこれを行ったところ、公式の PolyAI テスト分割で 94.42% の精度 を得ました。

厳密な全学習(Strict Full train)プロトコルを使用しました:ハイパーパラメータ調整/レシピ選択は、公式のトレーニングセットのみに対して 5-fold の層化CVで実施し、最終モデルは公式トレーニングデータの100%で再学習(レシピ固定)し、保持した公式 PolyAI テスト分割で単一の評価を行いました。

結果はこちらです:精度:94.42%, Macro-F1:0.9441、モデルサイズ:約68 MiB(FP32)、推論:約225 ms/クエリ

これは、一般に引用される 93.83% のベースラインに対して +0.59pp であり、公開リーダーボード上では明確な2位です(現在のSOTAである94.94%に対して0.52pp差)。ただし、こちらで見つけられていない新しい結果がある場合を除きます。

https://preview.redd.it/utnom6v0pntg1.png?width=1082&format=png&auto=webp&s=6ae505e9131b8d62ca6b293fe14e6a74b557d926

投稿者 /u/califalcon
[link] [comments]