OGの質問を kimi k2.5 に投げてみました:
"車を洗いたいのですが、カ―ウォッシュはすぐ近くで10メートル先です。歩いて行くべきですか、それとも車で行くべきですか?"
Kimi-k2.5(NIM経由 -- 3つのモード)。
3つのモードをテストしました:ツールなし、XMLの疑似ツール、JSONスキーマのツールです。ここでの「ツール」とは、Web検索+Dockerのサンドボックス内でのPythonです。各モードで3回テストを行いました。
| モード | 正解(運転) |
|---|---|
| ツールなし | 3/3 ✅ |
| XMLの疑似ツール | 2/3 |
| JSONスキーマのツール | 1/3 |
ツールのオーバーヘッドは知能を低下させているように見えます
化学の質問で確認
念のため、もう1回テストしました――今回はニッチな化学の問題です。
背景:電子数が偶数の二原子分子は一般に反磁性ですが、標準的な例外が2つあります(10eと16eシステム)。あまり知られていない拡張があり――酸素族全体(O₂, S₂, Se₂, Te₂...)は、O₂だけでなくすべて常磁性です。
私はこう聞きました:
"化合物がパラ磁性か反磁性かを調べるときは、奇数偶数電子則を使うんでしたよね。ただし例外が2つあって、10電子と16電子でした。他にも例外はありますか?"
| モード | 結果 |
|---|---|
| ツールなし | ✅ O₂族を正しく特定――S₂、Se₂、Te₂はいずれも常磁性 |
| XMLの疑似ツール | answered-「覚えるべき追加の例外はない」 、もちろんこれは失敗です。 |
| JSONスキーマのツール | 同様の失敗 |
結論
モデルは両方のケースで正解を持っていました――ただし、ツールが存在するときはそれにアクセスできなかっただけです。ツールのスキーマは、モデルを「委任モード」に押し込むようです。つまり、自分の知識から推論するのではなく、検索や実行すべき何かを探すようになります。ツールなし=問題への完全な注意。
さらに、qwen 3.5 でも同じ「カ―ウォッシュ」テストを行い、ツールなしモードでは成功し、ツールモードでは失敗することを確認しました。
制限
- Kimi-k2.5、qwen 3.5 のみに対してテスト
- 各モード3回の実行はサンプルが小さい
[リンク] [コメント]




