Heretic 1.3リリース:再現可能なモデル、統合ベンチマーク、ピークVRAM削減、対応モデル拡大など

Reddit r/LocalLLaMA / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Heretic 1.3が即時にリリースされ、デセンシティブ(検閲回避)系のクローンやフォークが増える中で、プロジェクトはより透明で理解しやすいことを強調しています。
  • 注目の新機能は「再現可能な実行(reproducible runs)」で、PyTorch/GPU/ドライバ/加速ライブラリ等の環境情報を収集・保持することで、他の人がモデルをバイト単位で同一に再生成できるようにします。
  • Hugging Faceでアブリテッド(検閲回避)モデルを公開する際、Hereticは必要に応じて`reproduce/`ディレクトリを生成し、完全に同じモデルを再現するために必要な情報を含めます(アップロードは事前にプロンプトで確認されます)。
  • さらに、アブリテッドによって能力が損なわれたかを判断しやすくするため、MMLU、EQ-Bench、GSM8K、HellaSwagなどの一般的なベンチマークをHereticから直接実行できる統合ベンチマーク機能が追加されています。
  • そのほか、ピークVRAM使用量の削減や対応モデルの拡大など、より効率的で適用範囲の広い実行を目指した改善も含まれます。

親愛なる仲間のラマたちよ、言語モデルから検閲を取り除くための先行ソフトウェアであるHeretichttps://github.com/p-e-w/heretic)のバージョン1.3が、ただちに利用可能になったことをお知らせできることを、私は非常に光栄に思います。

これは長く、そして紛れもなくドラマのあるリリースサイクルでした。その間にHereticは、GitHubスターが20,000、モデルの総ダウンロード数が1,300万超(最近、内部でHereticの剽窃されたフォークを使っていたことが判明した、ある「競合」のモデルは数えない)という、注目を集めるオープンソースプロジェクトへと成長しました。モデルのデコンサリング(検閲デコーディング)の話題は人気に火が付き、多くのクローンやフォークが次々と登場し、その中には、手法に神秘性やテクニカルな専門用語をまとわせたり、LLMが書いたゴミコードが数万行もあるようなものも出てきました。

私は喜んでお伝えしますが、Hereticはまったく逆の方向へ進んでいます。何が起きているのかを分かりにくくするのではなく、新しいリリースは、より理解しやすく、より透明にしました。Heretic 1.3の目玉機能は再現可能な実行です。これは一見すると簡単そうに見えても、実際にはかなり難しい問題でした。テンソル演算の結果は、PyTorchのバージョン、GPU、ドライバ、アクセラレータライブラリ、そしてサターンが昇りつつあるかどうかによって左右されうるからです。つまり再現性を確保するためには、それらの情報すべてを収集して保持する必要があります。この巨大な作業は、長年の貢献者であるVinay-Umretheが取り組み、250件以上のコメントが交わされるという、数週間にわたる非常に濃密な共同作業の過程で、コードの大部分を書き上げました。

その結果、非難された(abliterated)モデルをHugging Faceに公開する際、リポジトリ内にHereticがreproduceディレクトリを生成するオプションが追加されました。このディレクトリには、他の人が自分自身でバイト単位で完全に同一のモデルを生成するために必要な情報がすべて含まれています(このようなディレクトリの例)。「自分のマシンだと、そんなに低い数値が出せないみたいだ」という時代は終わりです。いまなら、できます! 再現性システムはそれ自体ですでに非常に役立ち、教育的でもありますが、将来的にはさらに野心的でワクワクする何かの土台になるはずで、近いうちにその内容を発表します。なお、再現性情報の公開は完全に任意であり、Hereticはそれを行う前に必ずプロンプトを表示します。アップロードされる内容は、あなたが常にコントロールできます。

ほかにもあります! 非難されたモデルが、その能力に重大な損傷を与えたかどうかを確実に判断するのが難しいことがあるのを、あなたは知っていますか? Hereticには世界でいちばん単純なベンチマークシステムが搭載されました。これにより、MMLU、EQ-Bench、GSM8K、HellaSwagのような標準ベンチマークを、Hereticから直接実行できるようになります。設定に四苦八苦する必要もなく、モデルを先にエクスポートする必要さえありません。これにより、「そのモデルを公開する価値があるのか、それとも別の試行を見た方がいいのか」を判断しやすくなります。このシステムは、LLMベンチマークを実行するための学術界のゴールドスタンダードであるlm-evaluation-harnessに基づいており、得られた指標を、オンラインで公開された数値と直接比較できます。

典型的な実行の過程では、Hereticはテンソル上でさまざまな関数を計算します。これには、中間テンソルがGPUメモリ上に現れて、かなりの量のVRAMを占有することが含まれる場合があります。magiccodingmanがこれを詳細に分析し、ピークVRAM使用量を大幅に削減する最適化を実装してくれたため、より大きなモデルを処理できるようになりました。

モデルのアーキテクチャは進化し続け、さらに複雑になっています。Hereticも、それに追いついています! faroloneとMoonRide303がHereticのレイヤーおよびモジュールの取り扱いロジックを改善し、Qwen3.5やGemma 4のような最新世代のモデルを、ほかにもいろいろと処理できるようにしました

改善と修正の完全な一覧についてはリリースノートをご覧ください。今後のバージョンには、さらにワクワクするものがやって来ます!

乾杯 :)

submitted by /u/-p-e-w-
[link] [comments]