AI支援開発のためのガバナンス層を構築した(実行時バリデーションと実システム付き)

Dev.to / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この記事は、モデル性能の測定だけでなく、プロトコルへの適合性を検証し、ガバナンスのエビデンスを生成することに焦点を当てた、AI支援開発のためのガバナンス層「Janus」を紹介しています。
  • 2本目の論文における進展として、理論的なガバナンスモデルを、根拠に基づくスコアリング、脱落(オミッション)の検出、人間の権限境界、決定論的な再構築といった測定可能な構成要素へと落とし込む取り組みが述べられています。
  • チームは、ガバナンス手法を評価し、結果を構造化された形で比較するためのベンチマーク指標(ECR、GVL、PVDR)を提示しています。
  • フレームワークの上にライブシステムが稼働しており、バリデーションのフレームワークと公開デモに関する追加リソースも共有されています。
  • 著者は、監視(observability)、イベントソーシング、AIツールの専門家から、特にフィードバックを求めており、現実の統合とツールのフィードバックループを重視していることが示されています。

私はJanusというプロジェクトに取り組んできました。AI支援による開発システムのためのガバナンス層です。

中核となる考え方はシンプルです:

性能を評価するのではなく、エビデンスとプロトコルへの適合によってガバナンスを評価します。

先日、2本目の論文を公開したところで、理論モデルから測定可能なガバナンスへと前進しました:

  • エビデンスに基づくモデル(E+/E−)

  • 省略の検出

  • 人間の権限境界

  • 決定論的な再構成

  • ベンチマーク(ECR、GVL、PVDR)

論文1(モデル):

https://doi.org/10.5281/zenodo.18974356

論文2(検証):

https://doi.org/10.5281/zenodo.19239183

さらに、それを動かしているライブシステムもあります:

https://lluviadeideas-juegosdidacticos.github.io/trivias/

そして、それを実行するためのフレームワーク:

https://framework.janusgovernance.org/

ぜひフィードバックをいただけると大変ありがたいです。特に、オブザーバビリティ、イベントソーシング、またはAIツールに取り組んでいる方からの意見を歓迎します。

広告