カーワッシュの謎を解明—ツール呼び出しが知能を低下させる

Reddit r/LocalLLaMA / 2026/4/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

著者は、Kimi-k2.5での実験結果として、ツール呼び出し（Dockerサンドボックス内でのWeb検索＋Python）を有効にすると「車の洗車—歩くか運転するか」という簡単な判断問題で、ツール無しのプロンプトよりも正答率が下がると報告している。
3つのモード（ツール無し、XML擬似ツール、JSONスキーマツール）を比較し、ツールを有効にすると正答が段階的に低下した（3/3、2/3、1/3）。
補足として化学の質問でも同様の傾向が見られ、ツール無しでは正解できた一方、ツールスキーマがあると失敗したため、モデルが「委任モード」に入り、内部の知識から推論するのではなく“探す／実行する”ことを探しに行く可能性が示唆されている。
結論として、ツールスキーマのオーバーヘッドやツールの存在が、特定のタスクでは推論性能（知能）を低下させうるという見立てであり、Qwen 3.5でも同様の挙動が観察された。
ただし制約として、テストは2つのモデルに限られ、各モードの実行回数も3回と小さいため、広く一般化できるかは不明である。

OGの質問を kimi k2.5 に投げてみました：

"車を洗いたいのですが、カ―ウォッシュはすぐ近くで10メートル先です。歩いて行くべきですか、それとも車で行くべきですか？"

Kimi-k2.5（NIM経由 -- 3つのモード）。

3つのモードをテストしました：ツールなし、XMLの疑似ツール、JSONスキーマのツールです。ここでの「ツール」とは、Web検索＋Dockerのサンドボックス内でのPythonです。各モードで3回テストを行いました。

モード	正解（運転）
ツールなし	3/3 ✅
XMLの疑似ツール	2/3
JSONスキーマのツール	1/3

ツールのオーバーヘッドは知能を低下させているように見えます

化学の質問で確認

念のため、もう1回テストしました――今回はニッチな化学の問題です。

背景：電子数が偶数の二原子分子は一般に反磁性ですが、標準的な例外が2つあります（10eと16eシステム）。あまり知られていない拡張があり――酸素族全体（O₂, S₂, Se₂, Te₂...）は、O₂だけでなくすべて常磁性です。

私はこう聞きました：

"化合物がパラ磁性か反磁性かを調べるときは、奇数偶数電子則を使うんでしたよね。ただし例外が2つあって、10電子と16電子でした。他にも例外はありますか？"

モード	結果
ツールなし	✅ O₂族を正しく特定――S₂、Se₂、Te₂はいずれも常磁性
XMLの疑似ツール	answered-「覚えるべき追加の例外はない」、もちろんこれは失敗です。
JSONスキーマのツール	同様の失敗

結論

モデルは両方のケースで正解を持っていました――ただし、ツールが存在するときはそれにアクセスできなかっただけです。ツールのスキーマは、モデルを「委任モード」に押し込むようです。つまり、自分の知識から推論するのではなく、検索や実行すべき何かを探すようになります。ツールなし＝問題への完全な注意。

さらに、qwen 3.5 でも同じ「カ―ウォッシュ」テストを行い、ツールなしモードでは成功し、ツールモードでは失敗することを確認しました。

制限

Kimi-k2.5、qwen 3.5 のみに対してテスト
各モード3回の実行はサンプルが小さい

投稿者 /u/Spirited_Neck1858
[リンク] [コメント]

日常業務に入れる | おじの解説 | 📗 AIを組織で回す技術 043

note

仮に有料noteが売れた時のご褒美をAI（Gemini）に選ばせてみたら、歩いた軌跡を思い出せる内容で、初心に戻ることが出来た。｜夜のAI対話録#13｜生成AI｜コラム｜Gemini｜

note

はしゃも｜感情構造エンジニア

note

ツール検証のつもりで漫画を描いたら、ChatGPTだけで4ページ完走してしまった｜おはようカノジョ＃136

note

なぜ一流ライターとエンジニアはChatGPTよりClaudeを選ぶのか｜月$20で生産性3倍化｜Opus 4.7・Sonnet 4.6・Haiku 4.5完全攻略【2026年4月最新】

note

カーワッシュの謎を解明—ツール呼び出しが知能を低下させる

要点

関連記事

日常業務に入れる | おじの解説 | 📗 AIを組織で回す技術 043

仮に有料noteが売れた時のご褒美をAI（Gemini）に選ばせてみたら、歩いた軌跡を思い出せる内容で、初心に戻ることが出来た。｜夜のAI対話録#13｜生成AI｜コラム｜Gemini｜

はしゃも｜感情構造エンジニア

ツール検証のつもりで漫画を描いたら、ChatGPTだけで4ページ完走してしまった｜おはようカノジョ＃136

なぜ一流ライターとエンジニアはChatGPTよりClaudeを選ぶのか｜月$20で生産性3倍化｜Opus 4.7・Sonnet 4.6・Haiku 4.5完全攻略【2026年4月最新】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

日常業務に入れる | おじの解説 | 📗 AIを組織で回す技術 043

仮に有料noteが売れた時のご褒美をAI（Gemini）に選ばせてみたら、歩いた軌跡を思い出せる内容で、初心に戻ることが出来た。｜夜のAI対話録#13｜生成AI｜コラム｜Gemini｜

はしゃも｜感情構造エンジニア

ツール検証のつもりで漫画を描いたら、ChatGPTだけで4ページ完走してしまった｜おはようカノジョ ＃136

なぜ一流ライターとエンジニアはChatGPTよりClaudeを選ぶのか｜月$20で生産性3倍化｜Opus 4.7・Sonnet 4.6・Haiku 4.5完全攻略【2026年4月最新】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ツール検証のつもりで漫画を描いたら、ChatGPTだけで4ページ完走してしまった｜おはようカノジョ＃136