BANKING77-77: 公式テストセットで新たに94.61%の最高結果（+0.13pp）。これまでの当方テスト94.48%を上回る。

Reddit r/artificial / 2026/4/9

💬 オピニオンModels & Research

原文を読む →

共有:

要点

公式のBANKING77-77テストセットにおいて、精度94.61%という新たな結果が報告されており、提出者のこれまでの最高記録である94.48%を+0.13パーセンテージポイント上回った。
当該研究では、公式の学習セットに対して5-fold交差検証を用いてレシピを固定し、その後、学習データ100%で再学習して公式テストセットで1回だけ最終評価を行うことで、テストリークがないことを主張している。
改善は、最後の層に適用したマルチビュー・エンコーダ適応によるものだとされており、「軽量な変更」であるにもかかわらず、ホールドアウトで得られた改善が最終的にホールドアウトされている公式テストの性能へと移転された、と説明されている。
モデルは比較的小型（約68 MiB）で、推論時間は約216 msと記載されている。
投稿では、ホールドアウトでの改善が公式テスト性能へ引き継がれなかった「頭打ち（plateau）」の経験について、他の人にも共有を求めている。

みなさん、こんにちは、

小さいながらも、苦労してようやく達成した節目を共有したいと思います。

94.48%で長く停滞した後、公式のBANKING77-77テストセット（元のノイズの多い学習データ、厳格なフル訓練プロトコル）を94.61%まで押し上げました。

主な詳細：

これまでの最高記録から+0.13pp
広く引用されている93.83%のベースラインから+0.78pp（公式SOTAシートは94.94%）
テスト情報の漏洩なし — 凍結用のレシピ作成のために公式訓練データで5-fold CVを実施し、その後100%訓練データで再学習、最終テストは1回だけ評価

モデルは比較的コンパクトです（約68 MiBのフットプリント、推論約216 ms）。

これは、最後の層に対するマルチビュー・エンコーダの適応によって達成しました。多くの小さな調整では、ホールドアウトからテストへうまく転移できなかった後、ようやく効果が出た比較的軽量な変更です。

同じように、ホールドアウトでの改善が真に切り離したテストセットへは転移しない、という壁に他の誰かがぶつかったことはありますか？そして、最終的に何がうまくいきましたか？

submitted by /u/califalcon
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/9Dailyインサイトを見る →

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

メタの最新モデルはザッカーバーグの私立学校と同じくらい“オープン”だ

The Register

Meta、視覚で世界を理解する新AI「Muse Spark」発表　「Llama」より高効率でAIメガネにも統合へ

ITmedia AI+

BANKING77-77: 公式テストセットで新たに94.61%の最高結果（+0.13pp）。これまでの当方テスト94.48%を上回る。

要点

💡 この記事が使われたインサイト

関連記事

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

メタの最新モデルはザッカーバーグの私立学校と同じくらい“オープン”だ

Meta、視覚で世界を理解する新AI「Muse Spark」発表　「Llama」より高効率でAIメガネにも統合へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

メタの最新モデルはザッカーバーグの私立学校と同じくらい“オープン”だ

Meta、視覚で世界を理解する新AI「Muse Spark」発表 「Llama」より高効率でAIメガネにも統合へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

Meta、視覚で世界を理解する新AI「Muse Spark」発表　「Llama」より高効率でAIメガネにも統合へ