それで、AWS Bedrock を使って個人プロジェクトで kimi 2.5 を使ってみました。単純なタスクならかなりうまくやります。ですが、ツール呼び出しになるとモデルの出来があまり良くないようで、私が気づいた範囲では、ツール呼び出しを 10 回中 5 回くらい幻覚(hallucinate)します。 一方で Claude や Openai のモデルは、ツール呼び出しが本当に効率的です。他の方もこの問題に直面していますか?それとも bedrock の問題なのでしょうか。公式の Kimi API は試していませんが、それでも内部的には同じモデルだと思います。
中国のモデルは、私たちが考えているほど本当にそんなに良いのでしょうか?
[link] [comments]


