エージェント / RAG のパイプラインをいろいろいじっていました
すべてが問題なく実行される(ツール呼び出しが期待どおりの出力を返す、パースもうまくいく等)ケースに遭遇するのですが、それでも最終的な回答が間違っている/ほんの少しだけズレています
クラッシュはしない、ただ出力が悪い
実際のところ、こういう問題をどうデバッグしているのか気になります
みなさんは:
- eval(評価)を使っていますか?
- トレーシングツール(LangSmith など)を使っていますか?
- ログを手作業で追いかけていますか?
- それとも、ある割合の不良出力を単に受け入れているだけですか?
技術的には何も失敗していないのに、それでも出力が間違っているケースがかなり多いように感じます
[リンク] [コメント]




