| BANKING77-77 は見かけ以上に難しいです。77のきめ細かい銀行取引意図、ノイズの多い実世界のクエリ、そしてクラス間の大きな重なり(クラスオーバーラップ)があります。 94.42%の精度 を、Seed AutoArch フレームワーク内で構築した純粋に軽量な埋め込み(lightweight embedding)+例(example)による再ランキング(reranking)システムで、PolyAI の公式テスト分割にて達成したことを共有できて嬉しいです。 主要数値: 公式テスト精度: 94.42% Macro-F1: 0.9441 推論: ~225 ms / ~68 MiB 改善: 有名に引用されている93.83%のベースラインに対して +0.59pp これにより、公開リーダーボードで明確な2位の結果になり、現在の絶対SOTA(94.94%)からはわずか 0.52pp 差です。 大規模言語モデルなし、7B+パラメータの怪物なし ただ効率的な埋め込み+再ランキングの魔法。 結果、そしてデモは HF Space でまもなく公開 高レベルのアプローチについての質問には喜んでお答えします #BANKING77 #IntentClassification #EfficientAI #SLM [リンク] [コメント] |
BANKING77公式テスト分割で94.42% — 軽量な埋め込み+リランキング(7B LLMなし)で新たに2位獲得
Reddit r/artificial / 2026/4/7
📰 ニュースSignals & Early TrendsModels & Research
要点
- 記事では、Seed AutoArch上で構築した「軽量な埋め込み+例ベースのリランキング」のみで、BANKING77の公式PolyAIテスト分割に対し94.42%精度(Macro-F1 0.9441)を達成したと報告しています。
- ベンチマーク上の改善幅として、広く引用される93.83%ベースラインから+0.59pp更新し、公開リーダーボードで2位(SOTA 94.94%との差0.52pp)に位置付けられたと述べています。
- 大規模言語モデル(7B+)を使わずに高性能を出しており、推論コストは約225ms、モデルサイズも約68MiBと低く抑えた点が強調されています。
- 近々HF Spaceでデモ公開予定で、手法の高レベル概要や質問への回答も行う見込みだとしています。




