p-e-w/gemma-4-E2B-it-heretic-ara: Hereticの新しいARA手法によってGemma 4の防御が公式リリース90分後に破られる

Reddit r/LocalLLaMA / 2026/4/3

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

Redditの投稿によると、Hereticの新しいArbitrary-Rank Ablation（ARA）手法は、GoogleのGemma 4がリリースされた直後に拒否（refusals）を抑制できる可能性がある。
投稿者は、ARAで改変したGemma 4モデルへのHugging Faceリンクを提示し、わずかな回避で質問に適切に答え、明らかなモデルの損傷（ダメージ）が見られないと主張している。
再現手順はGitHubリポジトリとローカルセットアップで共有されており、設定の`target_components`から`mlp.down_proj`を除外すると、アブレーション（abliteration）がよりうまく機能するようだという注記がある。
投稿は、ARAはまだ実験的であり、HereticのPyPI版ではまだ利用できないと注意している。
タイミングと実証された効果から、新しいGemma 4の防御挙動は、プロンプトのみの攻撃ではなく、モデルレベルの介入によって迅速に回避できることが示唆される。

GoogleのGemmaモデルは、（検閲による）強力な「アラインメント」が長年知られています。最新の反復であるGemma 4でさえ、Hereticの新しい Arbitrary-Rank Ablation (ARA) 手法には免疫がないことを報告できてうれしいです。この手法は、行列の最適化によって拒否を抑制します。

結果はこちらです： https://huggingface.co/p-e-w/gemma-4-E2B-it-heretic-ara

そして、はい、確かにそれは機能します。私が見た限りでは、質問には適切に答え、回避はほとんど、あるいはまったくありません。また、明らかなモデルへの損傷もありません。

再現するために必要なもの（そして、おそらく他のモデルも同様に処理するためのもの）：

git clone -b ara https://github.com/p-e-w/heretic.git cd heretic pip install . pip install git+https://github.com/huggingface/transformers.git heretic google/gemma-4-E2B-it

限られた実験（ねえ、まだ90分しか経ってません）からすると、設定の target_components から mlp.down_proj を取り除くと、アブレーションの方がうまくいくようです。

なお、ARAは実験段階のままで、HereticのPyPI版にはまだ利用できません。

このコミュニティに貢献できていつも楽しいです :)

投稿者： /u/-p-e-w-
[link] [comments]