推論のための長文脈モデルであるHydraLMをいろいろ試してみたのですが、数値が少し度を超えています。リポジトリのベンチマークスイートでは、対象の事実が1Mトークンのテストで深さ90%のところに埋もれていても、取得精度が1.00になっています。さらに、1M件のキー事実バンクでp@1 = 0.987、p@8 = 0.999、そして推測デコーディングにより最大1.8×高速化されています。加えて、長いコンテキストにおいて約99.8%のFLOP削減と、メモリの完全な削減も報告される再現可能な結果になっています。ベンチマークのドキュメント、再現用スクリプト、および検証ログは公開されているため、誰でも自分で結果を確認できます。 https://github.com/byte271/HydraLM
[リンク] [コメント]


