開発者の社内AIモデル利用におけるリスク報告

arXiv cs.AI / 2026/4/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 最先端AI企業は、公にリリースする前に最も高性能なモデルを数週間〜数か月間、社内で安全性の試験・評価・改善に用いることが多く、その運用には外部の展開ルールだけでは十分に扱えないリスクがある。
  • カリフォルニア州SB 53、ニューヨーク州RAISE法、EUの汎用AI行動規範など複数の枠組みは、社内でのAIモデル利用に起因するリスクについて、管理計画の作成と内部リスク報告を求めている。
  • そのため本ガイドは、これらの規制要件の重なりに適合する形で企業が内部利用リスク報告書を作成できるよう、標準化(調和)された基準を提案する。
  • 報告の枠組みは、2つの脅威ベクトル(自律的なモデルの不正挙動、インサイダーによる脅威)と、各ベクトルに対する3つのリスク要因(手段・動機・機会)で整理される。
  • 外部からは企業が社内でどのように最も能力の高いモデルを使っているか見えにくい中で、内部リスクを事前に特定し管理するための実務的な手段として、定期的で詳細なリスク報告の重要性が示される。

要旨: 最先端AI企業は、公開される可能性のある前に、安全性テスト、評価、反復を数週間または数か月間、主に自社内で最も高度なモデルをまず導入します。例えば、Anthropicは最近、サイバー攻撃に関連する高度な能力を備えた新しいクラスのモデルであるMythos Previewを開発しましたが、それは少なくとも6週間にわたって社内で利用可能な状態でした。その後、公開が告知されました。このような社内利用は、外部展開のための枠組みでは対処しきれないリスクを生み出します。
法的枠組み、特にカリフォルニア州の「最先端人工知能に関する透明性法」(SB 53)、ニューヨーク州の「責任あるAIの安全性と教育(RAISE)法」、およびEUの「汎用目的AIの行動規範(General-Purpose AI Code of Practice)」は、いずれも社内におけるAI利用に由来するリスクについて論じています。これらは、最先端の開発者に対し、社内利用から生じるリスクをどのように管理するかについての計画を作成し、実装すること、ならびに、自社のセーフガードと残存するあらゆるリスクを記述した社内利用リスク報告書を作成することを求めています。本ガイドは、3つの規制枠組みすべてに適した社内利用リスク報告書を企業が作成できるようにするための、調和された標準を提供します。本ガイドは主として、最先端AI開発者の評価・安全チームを対象としており、また副次的には、良い報告がどのようなものかを理解しようとする規制当局および監査人を対象としています。
AI研究開発の自動化の速度が速く、企業が最も能力の高いモデルを社内でどのように使っているかについて外部からの可視性が限られていることを踏まえると、定期的で詳細なリスク報告は、社内におけるAI利用から生じるリスクが顕在化する前に、それを特定し管理するための、利用可能な数少ない仕組みの一つとなりうます。より実質的に高度、またはよりリスクの高いモデルが社内に導入されるたびに、開発者はリスク報告書を作成し、そのモデルを導入しても安全である理由を論じるべきです。我々は、報告の枠組みを2つの脅威ベクトル――自律的なAIの不正行動と、インサイダーの脅威――および各ベクトルに対する3つのリスク要因――手段(means)、動機(motive)、機会(opportunity)――を中心に構成します。