私はSarvam-30Bと105Bを抹消し――インド初の多言語MoE推論モデルたち――その過程で面白いものを見つけました!
推論モデルには2つの拒否回路があり、1つではありません。<think>ブロックと最終回答が食い違うことがあります。モデルはそのCoT(推論の過程)では適合に向けて推論するのに、回答ではそれでも拒否してしまうのです。
決定的な発見:英語で計算されたある1つの指示が、他のほとんどの対応言語(例外としてマラヤーラム語、ヒンディー語、カンナダ語など)で拒否を取り除いていました。拒否は言語以前のものです。
[リンク] [コメント]




