HydraLM:長文推論実験で22倍高速なデコーディングと16分の1の状態メモリ

Reddit r/MachineLearning / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • HydraLMは長文推論モデルとして紹介されており、1Mトークンの設定でターゲットとなる事実が深さ90%に埋もれていても、ベンチマーク上の検索精度が1.00に達したと報告されています。
  • 1Mキーのファクトバンクでの性能として、p@1 = 0.987、p@8 = 0.999が示されており、非常に深いコンテキスト下でも高い検索品質を示唆しています。
  • 実験では、スペキュラティブ・デコーディングにより推論が最大1.8×高速化されると主張されており、品質面の高さも維持するとされています。
  • ベンチマークのドキュメント、再現用スクリプト、検証ログは公開されており、約99.8%のFLOP削減や長文でのメモリ削減(完全なメモリセーブ)といった省コストの結果も提示されています。
  • 全体として、HydraLMは推論時の計算効率と状態/メモリ使用量の両方を改善する実用的な長文アプローチとして位置付けられています。

推論のための長文脈モデルであるHydraLMをいろいろ試してみたのですが、数値が少し度を超えています。リポジトリのベンチマークスイートでは、対象の事実が1Mトークンのテストで深さ90%のところに埋もれていても、取得精度が1.00になっています。さらに、1M件のキー事実バンクでp@1 = 0.987、p@8 = 0.999、そして推測デコーディングにより最大1.8×高速化されています。加えて、長いコンテキストにおいて約99.8%のFLOP削減と、メモリの完全な削減も報告される再現可能な結果になっています。ベンチマークのドキュメント、再現用スクリプト、および検証ログは公開されているため、誰でも自分で結果を確認できます。 https://github.com/byte271/HydraLM

投稿者: /u/cyh-c
[リンク] [コメント]