AIガバナンスツールを自作した話 — LLM監査の実装記録
Zenn / 4/24/2026
💬 OpinionDeveloper Stack & InfrastructureTools & Practical Usage
Key Points
- LLM監査を目的に、AIガバナンスツールを自作した実装の試行錯誤を記録している。
- 監査のために必要となる観点(入力/出力の扱い、判定やログなど)をツール側に組み込みながら進めた流れが示されている。
- LLMを運用する際のガバナンス実装を「既製品でなく自分で組む」前提で、具体的な実装観点に落としている。
- 結果として、LLM監査を実務に寄せて実装するためのノウハウが共有されている。
AIガバナンスツールを自作した話 — LLM監査の実装記録
なぜ作ろうと思ったか
LLMをプロダクションで使い始めると、必ずある問題に直面する。
「なんでこのレスポンス、昨日より精度が落ちてるんだ?」
ログを遡ろうとするが、API呼び出しの記録はAnthropicのコンソールには入力・出力の生データが残っていない。どのリクエストで問題が起きたのか、追跡する手段がない。
私が最初にこれを感じたのは、Claude Codeを使ったコード補完の精度が日によってバラつくことに気づいたときだ。同じプロンプトのはずなのに、ある日はすっきりとしたコードを出力し、ある日は冗長な回答を返す。
その...
Continue reading this article on the original site.
Read original →



