| BANKING77(77の細粒度な銀行意図) は、確立されたベンチマークですが、ますます飽和してきています。 軽量な埋め込みベースの分類器+例による再ランキング手法(LLMは使用していません)でこれを行ったところ、公式の PolyAI テスト分割で 94.42% の精度 を得ました。 厳密な全学習(Strict Full train)プロトコルを使用しました:ハイパーパラメータ調整/レシピ選択は、公式のトレーニングセットのみに対して 5-fold の層化CVで実施し、最終モデルは公式トレーニングデータの100%で再学習(レシピ固定)し、保持した公式 PolyAI テスト分割で単一の評価を行いました。 結果はこちらです:精度:94.42%, Macro-F1:0.9441、モデルサイズ:約68 MiB(FP32)、推論:約225 ms/クエリ これは、一般に引用される 93.83% のベースラインに対して +0.59pp であり、公開リーダーボード上では明確な2位です(現在のSOTAである94.94%に対して0.52pp差)。ただし、こちらで見つけられていない新しい結果がある場合を除きます。 [link] [comments] |
軽量埋め込み+例の再ランキングで(厳格なフル学習プロトコルにより)BANKING77公式テスト分割で94.42%
Reddit r/MachineLearning / 2026/4/7
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- この投稿では、LLMを使用せず、軽量な埋め込みベースの分類器に「例の再ランキング」手順を組み合わせた手法により、公式のBANKING77 PolyAIテスト分割で94.42%の精度を達成したことを報告している。
- 厳格なフル学習プロトコルを強調している。具体的には、公式トレーニングセットのみを対象に、レシピ選択とハイパーパラメータ調整を5-foldの層化CVで行い、その後、公式トレーニングデータの100%で再学習してから、保持されたテスト分割で最終評価を1回行う。
- 報告されている指標には、Macro-F1が0.9441、モデルサイズが約68 MiB(FP32)、推論レイテンシが1クエリあたり約225 msが含まれる。
- 著者は、この結果が一般に引用される93.83%のベースラインを+0.59ポイント改善したと主張しており、公開リーダーボード上では現時点で明確な2位で、現在掲げられているSOTA(94.94%)から0.52pp遅れている位置づけになっている。




