LLM搭載アプリを出荷した後に実際に何が起きるのか、というところをいろいろいじって掘り下げてきたのですが、皆さんがそれをどう扱っているのかぜひ聞きたいです…
私がずっと引っかかっていることがいくつかあります:
継続的な最適化。アプリがユーザーの手に渡った後、プロンプトをどれくらいの頻度で調整したり、モデルを差し替えたり、アダプタを再学習したり、RAGパイプラインを作り直したりしていますか? それとも常に大変な作業が続く感じですか、それとも「十分に良い」ところで安定して到達しますか?
モデルのバグとエンジニアリングのバグ。何かが壊れたとき、モデルが幻覚を起こしているのか、それとも単にコードやインフラの問題で後退(退行)しているのかをどうやって見分けますか? 評価(evals)でそれを捕まえられていますか? それとも主にユーザーからの報告に頼ることが多いですか?
評価(evals)も定期的にアップデートしていますか? それとも一度作って終わり、という運用ですか?
開発ループ。Pi、Hermes、Aider、Cline みたいなハーネスを使って、ローカルのモデルでデバッグして試行錯誤していますか? それとも Claude Code や Cursor に寄せて、あとはそれで済ませていますか? ハイブリッド構成で動かしている人はいますか?
こちらのローカルファースト派の人たちが、APIだけの人たちと比べて、根本的に違うワークフローを持っているのか気になっています。特に、重みや量子化を差し替えるときにモデルの退行を見つけるあたり。
何がうまくいっているのか、何がつらいのか、何を変えたいのか?
[link] [comments]




