BANKING77公式テスト分割で94.42% — 軽量な埋め込み+リランキング(7B LLMなし)で新たに2位獲得

Reddit r/artificial / 2026/4/7

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 記事では、Seed AutoArch上で構築した「軽量な埋め込み+例ベースのリランキング」のみで、BANKING77の公式PolyAIテスト分割に対し94.42%精度(Macro-F1 0.9441)を達成したと報告しています。
  • ベンチマーク上の改善幅として、広く引用される93.83%ベースラインから+0.59pp更新し、公開リーダーボードで2位(SOTA 94.94%との差0.52pp)に位置付けられたと述べています。
  • 大規模言語モデル(7B+)を使わずに高性能を出しており、推論コストは約225ms、モデルサイズも約68MiBと低く抑えた点が強調されています。
  • 近々HF Spaceでデモ公開予定で、手法の高レベル概要や質問への回答も行う見込みだとしています。
94.42% on BANKING77 Official Test Split — New Strong 2nd Place with Lightweight Embedding + Rerank (no 7B LLM)

Banking77 公式テスト分割で94.42%の正確さ

BANKING77-77 は見かけ以上に難しいです。77のきめ細かい銀行取引意図、ノイズの多い実世界のクエリ、そしてクラス間の大きな重なり(クラスオーバーラップ)があります。

94.42%の精度 を、Seed AutoArch フレームワーク内で構築した純粋に軽量な埋め込み(lightweight embedding)+例(example)による再ランキング(reranking)システムで、PolyAI の公式テスト分割にて達成したことを共有できて嬉しいです。

主要数値:

公式テスト精度: 94.42%

Macro-F1: 0.9441

推論: ~225 ms / ~68 MiB

改善: 有名に引用されている93.83%のベースラインに対して +0.59pp

これにより、公開リーダーボードで明確な2位の結果になり、現在の絶対SOTA(94.94%)からはわずか 0.52pp 差です。

大規模言語モデルなし、7B+パラメータの怪物なし

ただ効率的な埋め込み+再ランキングの魔法。

結果、そしてデモは HF Space でまもなく公開

高レベルのアプローチについての質問には喜んでお答えします

#BANKING77 #IntentClassification #EfficientAI #SLM

投稿者 /u/califalcon
[リンク] [コメント]