最近、さまざまな LLM(大規模言語モデル)を試していますが、直面している課題の一つは、モデル間での出力を比較する際のワークフローをどう管理するかです。
例えば、プロンプトやエージェント風タスクをテストする際、同じ指示を異なるモデルがどう処理するかを確認したいことがよくあります。問題は、異なるインターフェイスや API の間を切り替えると、会話の文脈を一貫して保つのが難しくなることです。特に、迅速に反復しているときには。
いくつか気になっている点は次のとおりです:
- ここにいる多くの人は、1 つの主要モデルだけを使い続けるのでしょうか、それとも定期的に複数を比較しますか?
- モデルを比較する場合、プロンプトの文脈と出力をどのように整理していますか?
- テストには、カスタムスクリプト、フレームワーク、または何らかの統一インターフェースを使用していますか?
ローカルモデルとホスト済みのモデルを併用して作業する場合、ここにいる人々がこれをどのようにアプローチしているかに特に関心があります。
複数の LLM を試す際に、他の人がワークフローをどのように構築しているのか、ぜひ聞きたいです。
[リンク] [コメント]

