Kimiはツール呼び出しが苦手？【D】

Reddit r/MachineLearning / 2026/4/30

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

Redditの投稿者は、AWS Bedrock経由でKimi 2.5を個人プロジェクトで試したところ、単純なタスクではうまくいく一方でツール呼び出しの信頼性が低く、約10回中5回程度誤ったツール呼び出しをするように見えたと報告しています。
投稿者は、ClaudeやOpenAIモデルのほうがツール呼び出しにおいてより効率的（正確）だと比較しています。
その原因がモデルそのものではなく、AWS Bedrockの問題（統合や挙動）かもしれないと疑い、公式APIでの検証はまだだと述べています。
投稿ではさらに、このような課題を根拠に「中国のモデルは本当に私たちが思うほど優れているのか」という広い問いも投げかけています。
最後に、同様の問題に直面した人の経験や、根本原因の見立てを共有してほしいと呼びかけています。

それで、AWS Bedrock を使って個人プロジェクトで kimi 2.5 を使ってみました。単純なタスクならかなりうまくやります。ですが、ツール呼び出しになるとモデルの出来があまり良くないようで、私が気づいた範囲では、ツール呼び出しを 10 回中 5 回くらい幻覚（hallucinate）します。一方で Claude や Openai のモデルは、ツール呼び出しが本当に効率的です。他の方もこの問題に直面していますか？それとも bedrock の問題なのでしょうか。公式の Kimi API は試していませんが、それでも内部的には同じモデルだと思います。

中国のモデルは、私たちが考えているほど本当にそんなに良いのでしょうか？

submitted by /u/Ok_Firefighter261
[link] [comments]

Black Hat USA

AI Business

オープン化で自前主義から脱却も、産業用以外でも人型ロボットは静観

日経XTECH

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

DeepSeek V4がリリース：1.6Tパラメータ、1Mコンテキスト、そして驚異的な低価格

Dev.to

Legora、AtlassianとNVenturesの支援でシリーズDを6億ドルまで拡張、企業価値は56億ドルに

Tech.eu

Kimiはツール呼び出しが苦手？【D】

要点

関連記事

Black Hat USA

オープン化で自前主義から脱却も、産業用以外でも人型ロボットは静観

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

DeepSeek V4がリリース：1.6Tパラメータ、1Mコンテキスト、そして驚異的な低価格

Legora、AtlassianとNVenturesの支援でシリーズDを6億ドルまで拡張、企業価値は56億ドルに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer