軽量埋め込み＋例の再ランキングで（厳格なフル学習プロトコルにより）BANKING77公式テスト分割で94.42%

Reddit r/MachineLearning / 2026/4/7

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この投稿では、LLMを使用せず、軽量な埋め込みベースの分類器に「例の再ランキング」手順を組み合わせた手法により、公式のBANKING77 PolyAIテスト分割で94.42%の精度を達成したことを報告している。
厳格なフル学習プロトコルを強調している。具体的には、公式トレーニングセットのみを対象に、レシピ選択とハイパーパラメータ調整を5-foldの層化CVで行い、その後、公式トレーニングデータの100%で再学習してから、保持されたテスト分割で最終評価を1回行う。
報告されている指標には、Macro-F1が0.9441、モデルサイズが約68 MiB（FP32）、推論レイテンシが1クエリあたり約225 msが含まれる。
著者は、この結果が一般に引用される93.83%のベースラインを+0.59ポイント改善したと主張しており、公開リーダーボード上では現時点で明確な2位で、現在掲げられているSOTA（94.94%）から0.52pp遅れている位置づけになっている。

[R] 軽量埋め込み＋例による再ランキング（厳密な全学習プロトコル）での BANKING77 公式テスト分割における 94.42%

BANKING77（77の細粒度な銀行意図）は、確立されたベンチマークですが、ますます飽和してきています。

軽量な埋め込みベースの分類器＋例による再ランキング手法（LLMは使用していません）でこれを行ったところ、公式の PolyAI テスト分割で 94.42% の精度 を得ました。

厳密な全学習（Strict Full train）プロトコルを使用しました：ハイパーパラメータ調整／レシピ選択は、公式のトレーニングセットのみに対して 5-fold の層化CVで実施し、最終モデルは公式トレーニングデータの100%で再学習（レシピ固定）し、保持した公式 PolyAI テスト分割で単一の評価を行いました。

結果はこちらです：精度：94.42%, Macro-F1：0.9441、モデルサイズ：約68 MiB（FP32）、推論：約225 ms／クエリ

これは、一般に引用される 93.83% のベースラインに対して +0.59pp であり、公開リーダーボード上では明確な2位です（現在のSOTAである94.94%に対して0.52pp差）。ただし、こちらで見つけられていない新しい結果がある場合を除きます。

https://preview.redd.it/utnom6v0pntg1.png?width=1082&format=png&auto=webp&s=6ae505e9131b8d62ca6b293fe14e6a74b557d926

投稿者 /u/califalcon
[link] [comments]