GoogleのGemmaモデルは、(検閲による)強力な「アラインメント」が長年知られています。最新の反復であるGemma 4でさえ、Hereticの新しい Arbitrary-Rank Ablation (ARA) 手法には免疫がないことを報告できてうれしいです。この手法は、行列の最適化によって拒否を抑制します。
結果はこちらです: https://huggingface.co/p-e-w/gemma-4-E2B-it-heretic-ara
そして、はい、確かにそれは機能します。私が見た限りでは、質問には適切に答え、回避はほとんど、あるいはまったくありません。また、明らかなモデルへの損傷もありません。
再現するために必要なもの(そして、おそらく他のモデルも同様に処理するためのもの):
git clone -b ara https://github.com/p-e-w/heretic.git cd heretic pip install . pip install git+https://github.com/huggingface/transformers.git heretic google/gemma-4-E2B-it 限られた実験(ねえ、まだ90分しか経ってません)からすると、設定の target_components から mlp.down_proj を取り除くと、アブレーションの方がうまくいくようです。
なお、ARAは実験段階のままで、HereticのPyPI版にはまだ利用できません。
このコミュニティに貢献できていつも楽しいです :)
[link] [comments]




