広告

p-e-w/gemma-4-E2B-it-heretic-ara: Hereticの新しいARA手法によってGemma 4の防御が公式リリース90分後に破られる

Reddit r/LocalLLaMA / 2026/4/3

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Redditの投稿によると、Hereticの新しいArbitrary-Rank Ablation(ARA)手法は、GoogleのGemma 4がリリースされた直後に拒否(refusals)を抑制できる可能性がある。
  • 投稿者は、ARAで改変したGemma 4モデルへのHugging Faceリンクを提示し、わずかな回避で質問に適切に答え、明らかなモデルの損傷(ダメージ)が見られないと主張している。
  • 再現手順はGitHubリポジトリとローカルセットアップで共有されており、設定の`target_components`から`mlp.down_proj`を除外すると、アブレーション(abliteration)がよりうまく機能するようだという注記がある。
  • 投稿は、ARAはまだ実験的であり、HereticのPyPI版ではまだ利用できないと注意している。
  • タイミングと実証された効果から、新しいGemma 4の防御挙動は、プロンプトのみの攻撃ではなく、モデルレベルの介入によって迅速に回避できることが示唆される。

GoogleのGemmaモデルは、(検閲による)強力な「アラインメント」が長年知られています。最新の反復であるGemma 4でさえ、Hereticの新しい Arbitrary-Rank Ablation (ARA) 手法には免疫がないことを報告できてうれしいです。この手法は、行列の最適化によって拒否を抑制します。

結果はこちらです: https://huggingface.co/p-e-w/gemma-4-E2B-it-heretic-ara

そして、はい、確かにそれは機能します。私が見た限りでは、質問には適切に答え、回避はほとんど、あるいはまったくありません。また、明らかなモデルへの損傷もありません。

再現するために必要なもの(そして、おそらく他のモデルも同様に処理するためのもの):

git clone -b ara https://github.com/p-e-w/heretic.git cd heretic pip install . pip install git+https://github.com/huggingface/transformers.git heretic google/gemma-4-E2B-it 

限られた実験(ねえ、まだ90分しか経ってません)からすると、設定の target_components から mlp.down_proj を取り除くと、アブレーションの方がうまくいくようです。

なお、ARAは実験段階のままで、HereticのPyPI版にはまだ利用できません。

このコミュニティに貢献できていつも楽しいです :)

投稿者: /u/-p-e-w-
[link] [comments]

広告