BANKING77-77: 公式テストセットで新たに94.61%の最高結果(+0.13pp)。これまでの当方テスト94.48%を上回る。

Reddit r/artificial / 2026/4/9

💬 オピニオンModels & Research

要点

  • 公式のBANKING77-77テストセットにおいて、精度94.61%という新たな結果が報告されており、提出者のこれまでの最高記録である94.48%を+0.13パーセンテージポイント上回った。
  • 当該研究では、公式の学習セットに対して5-fold交差検証を用いてレシピを固定し、その後、学習データ100%で再学習して公式テストセットで1回だけ最終評価を行うことで、テストリークがないことを主張している。
  • 改善は、最後の層に適用したマルチビュー・エンコーダ適応によるものだとされており、「軽量な変更」であるにもかかわらず、ホールドアウトで得られた改善が最終的にホールドアウトされている公式テストの性能へと移転された、と説明されている。
  • モデルは比較的小型(約68 MiB)で、推論時間は約216 msと記載されている。
  • 投稿では、ホールドアウトでの改善が公式テスト性能へ引き継がれなかった「頭打ち(plateau)」の経験について、他の人にも共有を求めている。

みなさん、こんにちは、

小さいながらも、苦労してようやく達成した節目を共有したいと思います。

94.48%で長く停滞した後、公式のBANKING77-77テストセット(元のノイズの多い学習データ、厳格なフル訓練プロトコル)を94.61%まで押し上げました。

主な詳細:

  • これまでの最高記録から+0.13pp
  • 広く引用されている93.83%のベースラインから+0.78pp(公式SOTAシートは94.94%)
  • テスト情報の漏洩なし — 凍結用のレシピ作成のために公式訓練データで5-fold CVを実施し、その後100%訓練データで再学習、最終テストは1回だけ評価

モデルは比較的コンパクトです(約68 MiBのフットプリント、推論約216 ms)。

これは、最後の層に対するマルチビュー・エンコーダの適応によって達成しました。多くの小さな調整では、ホールドアウトからテストへうまく転移できなかった後、ようやく効果が出た比較的軽量な変更です。

同じように、ホールドアウトでの改善が真に切り離したテストセットへは転移しない、という壁に他の誰かがぶつかったことはありますか?そして、最終的に何がうまくいきましたか?

submitted by /u/califalcon
[link] [comments]