カーワッシュの謎を解明—ツール呼び出しが知能を低下させる

Reddit r/LocalLLaMA / 2026/4/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者は、Kimi-k2.5での実験結果として、ツール呼び出し(Dockerサンドボックス内でのWeb検索+Python)を有効にすると「車の洗車—歩くか運転するか」という簡単な判断問題で、ツール無しのプロンプトよりも正答率が下がると報告している。
  • 3つのモード(ツール無し、XML擬似ツール、JSONスキーマツール)を比較し、ツールを有効にすると正答が段階的に低下した(3/3、2/3、1/3)。
  • 補足として化学の質問でも同様の傾向が見られ、ツール無しでは正解できた一方、ツールスキーマがあると失敗したため、モデルが「委任モード」に入り、内部の知識から推論するのではなく“探す/実行する”ことを探しに行く可能性が示唆されている。
  • 結論として、ツールスキーマのオーバーヘッドやツールの存在が、特定のタスクでは推論性能(知能)を低下させうるという見立てであり、Qwen 3.5でも同様の挙動が観察された。
  • ただし制約として、テストは2つのモデルに限られ、各モードの実行回数も3回と小さいため、広く一般化できるかは不明である。

OGの質問を kimi k2.5 に投げてみました:

"車を洗いたいのですが、カ―ウォッシュはすぐ近くで10メートル先です。歩いて行くべきですか、それとも車で行くべきですか?"

Kimi-k2.5(NIM経由 -- 3つのモード)。

3つのモードをテストしました:ツールなし、XMLの疑似ツール、JSONスキーマのツールです。ここでの「ツール」とは、Web検索+Dockerのサンドボックス内でのPythonです。各モードで3回テストを行いました。

モード 正解(運転)
ツールなし 3/3 ✅
XMLの疑似ツール 2/3
JSONスキーマのツール 1/3

ツールのオーバーヘッドは知能を低下させているように見えます

化学の質問で確認

念のため、もう1回テストしました――今回はニッチな化学の問題です。

背景:電子数が偶数の二原子分子は一般に反磁性ですが、標準的な例外が2つあります(10eと16eシステム)。あまり知られていない拡張があり――酸素族全体(O₂, S₂, Se₂, Te₂...)は、O₂だけでなくすべて常磁性です。

私はこう聞きました:

"化合物がパラ磁性か反磁性かを調べるときは、奇数偶数電子則を使うんでしたよね。ただし例外が2つあって、10電子と16電子でした。他にも例外はありますか?"

モード 結果
ツールなし ✅ O₂族を正しく特定――S₂、Se₂、Te₂はいずれも常磁性
XMLの疑似ツール answered-「覚えるべき追加の例外はない」 、もちろんこれは失敗です。
JSONスキーマのツール 同様の失敗

結論

モデルは両方のケースで正解を持っていました――ただし、ツールが存在するときはそれにアクセスできなかっただけです。ツールのスキーマは、モデルを「委任モード」に押し込むようです。つまり、自分の知識から推論するのではなく、検索や実行すべき何かを探すようになります。ツールなし=問題への完全な注意。

さらに、qwen 3.5 でも同じ「カ―ウォッシュ」テストを行い、ツールなしモードでは成功し、ツールモードでは失敗することを確認しました。

制限

  • Kimi-k2.5、qwen 3.5 のみに対してテスト
  • 各モード3回の実行はサンプルが小さい
投稿者 /u/Spirited_Neck1858
[リンク] [コメント]