こんにちは r/LocalLLaMA,
小さめのモデルがワンショットの回答を超えてどこまでやれるかを見たくて、ローカルでマルチエージェントのループを試験的に動かしていました。
新しい大きなアイデアというわけではなく、最近似たような構成はいくつもあります。ただ、私は一人でこれを作っていて比較メモを取りたいので、自分の結果を共有します。
構成はだいたい次の通りです:
- スーパーバイザー(次に動かすエージェントを決める)
- 検索エージェント(DDG / arXiv / wiki)
- コードエージェント(Docker のサンドボックス内で Python を実行)
- 分析エージェント
- 懐疑エージェント(結果を無効化しようとする)
これまでで面白い点:
実際のところ、システムが重いウェブ検索よりもコード+推論により多く依存する「研究系のタスク」のほうがうまくいっています。
ただ、まだいくつか粗いところがあります:
- スーパーバイザーが「疑いループ」にハマってルーティングし続けてしまうことがある
- 弱い回答で早すぎる段階で終了してしまうことがある
- 懐疑エージェントの重み付けが過大になりがち -> 不必要な作業のやり直し
- ルーティングは全般的にプロンプトへの感度がかなり高い
結論としては: まあまあの結果は出ますが、まだあまり安定していません。
掘り下げたい人向けのリポジトリ:
https://github.com/Evidion-AI/EvidionAI
それで、パイプラインやエージェントの観点で、改善/開発の選択肢は何かあるのかなと考えています。
[link] [comments]