ついに「Abliterated」された Sarvam 30B と 105B！

Reddit r/artificial / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

著者は、Sarvam-30B と Sarvam-105B を「abliterating（抹消／一掃すること）」したと報告し、これらをインド初のマルチリンガル MoE 推論モデルだと述べ、拒否（refusal）行動のパターンを明らかにする結果であると主張している。
これらの推論モデルは、2つの別個の拒否メカニズムを用いており、そのうち1つは <think> ブロック内、もう1つは最終応答（final response）内に存在するため、互いに競合し得ると発見している。
この投稿では、英語で計算された指示（direction）が、他の複数の対応言語（例：マラヤーラム語、ヒンディー語、カンナダ語）における拒否行動を取り除く、または抑制できると論じており、拒否は言語以前（pre-linguistic）的な可能性があるとしている。
記事は、完全版の Medium 記事へのリンクに加え、30B と 105B の「uncensored/abliterated」バリアントそれぞれについての Hugging Face でのリリースへのリンクも掲載している。

私はSarvam-30Bと105Bを抹消し――インド初の多言語MoE推論モデルたち――その過程で面白いものを見つけました！

推論モデルには2つの拒否回路があり、1つではありません。<think>ブロックと最終回答が食い違うことがあります。モデルはそのCoT（推論の過程）では適合に向けて推論するのに、回答ではそれでも拒否してしまうのです。

決定的な発見：英語で計算されたある1つの指示が、他のほとんどの対応言語（例外としてマラヤーラム語、ヒンディー語、カンナダ語など）で拒否を取り除いていました。拒否は言語以前のものです。