| こんにちは、 過去数か月、ローカルLLMを使って自律的にGoコードを書き出すAIエージェントを構築していました。主なユースケースは、SIEMパイプライン向けのログパーサ生成です。 作業の大部分は、評価そのものに行き着きました。つまり、自律コーディングタスクにおいて、そのモデルが本当に役に立つのかを、どう客観的に測ればよいのか? そこで、(1) エージェントが実際のGoパーサを生成できるようにし、(2) Goコードをコンパイルし、(3) 抽出されたフィールドと型を検証し、(4) 期待するスキーマに対してパース品質を測定し、(5) より長い実行ではスループット/速度を追跡する、というハーネスを作りました。 オープンウェイトモデルの現行のリリース頻度を踏まえると、結果は興味深いものです。 ベンチマークと手法の最初の一般公開版をこちらに公開しました: ご意見・フィードバック大歓迎です。 [リンク] [コメント] |
実践でローカルLLMをテストする:コード生成、品質と速度のトレードオフ
Reddit r/LocalLLaMA / 2026/5/9
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- この投稿では、ローカルLLMを用いてGoコードを自律生成するAIエージェントを構築したと説明されており、主な用途はSIEMパイプライン向けのログパーサ生成です。
- 作業の大部分は、主観的な印象に頼らず「自律コーディングに本当に有用か」を客観的に評価する方法の設計に費やされたと述べています。
- 著者は、実際のGoパーサを生成してコンパイルし、抽出されるフィールドや型を検証し、期待するスキーマに対してパース品質を比較するベンチマーク用の評価ハーネスを開発しました。
- さらに、長時間の実行にわたってスループットや速度も計測し、品質と性能のトレードオフを検討しています。
- 著者はベンチマークと手法の初の公開版を共有し、フィードバックと「次にどのモデルをテストすべきか」の提案を求めています。




