ついに「Abliterated」された Sarvam 30B と 105B!

Reddit r/artificial / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者は、Sarvam-30B と Sarvam-105B を「abliterating(抹消/一掃すること)」したと報告し、これらをインド初のマルチリンガル MoE 推論モデルだと述べ、拒否(refusal)行動のパターンを明らかにする結果であると主張している。
  • これらの推論モデルは、2つの別個の拒否メカニズムを用いており、そのうち1つは <think> ブロック内、もう1つは最終応答(final response)内に存在するため、互いに競合し得ると発見している。
  • この投稿では、英語で計算された指示(direction)が、他の複数の対応言語(例:マラヤーラム語、ヒンディー語、カンナダ語)における拒否行動を取り除く、または抑制できると論じており、拒否は言語以前(pre-linguistic)的な可能性があるとしている。
  • 記事は、完全版の Medium 記事へのリンクに加え、30B と 105B の「uncensored/abliterated」バリアントそれぞれについての Hugging Face でのリリースへのリンクも掲載している。

私はSarvam-30Bと105Bを抹消し――インド初の多言語MoE推論モデルたち――その過程で面白いものを見つけました!

推論モデルには2つの拒否回路があり、1つではありません。<think>ブロックと最終回答が食い違うことがあります。モデルはそのCoT(推論の過程)では適合に向けて推論するのに、回答ではそれでも拒否してしまうのです。

決定的な発見:英語で計算されたある1つの指示が、他のほとんどの対応言語(例外としてマラヤーラム語、ヒンディー語、カンナダ語など)で拒否を取り除いていました。拒否は言語以前のものです。

詳細な記事:https://medium.com/@aloshdenny/uncensoring-sarvamai-abliterating-refusal-mechanisms-in-indias-first-moe-reasoning-model-b6d334f85f42

30Bモデル:https://huggingface.co/aoxo/sarvam-30b-uncensored

105Bモデル:https://huggingface.co/aoxo/sarvam-105b-uncensored

投稿者 /u/Available-Deer1723
[リンク] [コメント]