Kimiはツール呼び出しが苦手?【D】

Reddit r/MachineLearning / 2026/4/30

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • Redditの投稿者は、AWS Bedrock経由でKimi 2.5を個人プロジェクトで試したところ、単純なタスクではうまくいく一方でツール呼び出しの信頼性が低く、約10回中5回程度誤ったツール呼び出しをするように見えたと報告しています。
  • 投稿者は、ClaudeやOpenAIモデルのほうがツール呼び出しにおいてより効率的(正確)だと比較しています。
  • その原因がモデルそのものではなく、AWS Bedrockの問題(統合や挙動)かもしれないと疑い、公式APIでの検証はまだだと述べています。
  • 投稿ではさらに、このような課題を根拠に「中国のモデルは本当に私たちが思うほど優れているのか」という広い問いも投げかけています。
  • 最後に、同様の問題に直面した人の経験や、根本原因の見立てを共有してほしいと呼びかけています。

それで、AWS Bedrock を使って個人プロジェクトで kimi 2.5 を使ってみました。単純なタスクならかなりうまくやります。ですが、ツール呼び出しになるとモデルの出来があまり良くないようで、私が気づいた範囲では、ツール呼び出しを 10 回中 5 回くらい幻覚(hallucinate)します。 一方で Claude や Openai のモデルは、ツール呼び出しが本当に効率的です。他の方もこの問題に直面していますか?それとも bedrock の問題なのでしょうか。公式の Kimi API は試していませんが、それでも内部的には同じモデルだと思います。

中国のモデルは、私たちが考えているほど本当にそんなに良いのでしょうか?

submitted by /u/Ok_Firefighter261
[link] [comments]