過去18か月間、生成AI向けのCISOプレイブックは比較的シンプルでした。ブラウザを制御することです。
セキュリティチームは、クラウドアクセスセキュリティブローカー(CASB)のポリシーを強化し、よく知られたAIエンドポイントへのトラフィックをブロックまたは監視し、利用を許可されたゲートウェイ経由にルーティングしてきました。運用モデルは明確でした。機密データが外部API呼び出しのためにネットワーク外へ出るなら、それを観測し、ログに記録し、止められる。 しかし、その前提が崩れ始めています。
静かなハードウェアの変化が、大規模言語モデル(LLM)の利用をネットワークからエンドポイントへ押し出しています。これをShadow AI 2.0、あるいは「自前のモデルを持ち込む」(BYOM)時代と呼んでもよいでしょう。能力のあるモデルを従業員がノートPC上でローカルに実行し、オフラインで使い、API呼び出しがなく、目立ったネットワークの痕跡もありません。ガバナンスの議論はいまだに「クラウドへのデータ持ち出し」として組み立てられていますが、より差し迫った企業リスクは、ますます「デバイス内部で検証されていない推論」になっています。"
推論がローカルで行われると、従来のデータ損失防止(DLP)はそのやり取りを見つけられません。そしてセキュリティが見られなければ、管理もできません。
ローカル推論が突然現実的になった理由
2年前、業務用ノートPCで役に立つLLMを動かすのはニッチな実験でした。今では技術チームにとって日常的です。
次の3つが重なりました:
消費者向けグレードのアクセラレータが本気になった: 64GBの統合メモリを備えたMacBook Proなら、文脈長の実用的な上限はあるものの、多くの場合、量子化した70B級モデルを十分に使える速度で動かせます。以前はマルチGPUサーバが必要だったものが、現在では多くの実務において、高性能なノートPCで現実的になりました。
量子化が主流になった: モデルをより小さく高速な形式に圧縮して、ノートPCのメモリに収めることが容易になり、多くのタスクでは許容できる品質のトレードオフで済みます。
配布の摩擦がない: オープンウェイトのモデルは1つのコマンドで入手でき、ツール群のエコシステムにより「ダウンロード→実行→チャット」が簡単です。
結果: エンジニアは数GB規模のモデル成果物をダウンロードし、Wi‑Fiを切って、機密性のあるワークフローをローカルで実行できます。ソースコードレビュー、ドキュメントの要約、顧客コミュニケーションの下書き、規制対象データセットでの探索的分析まで。外向きパケットもありません。プロキシのログもありません。クラウドの監査トレイルもありません。
ネットワークセキュリティの観点から見ると、その活動は「何も起きていない」のと見分けがつかないように見える可能性があります。
リスクはもはや「会社からデータが出ること」だけではない
データがノートPCから出ていないなら、なぜCISOが気にする必要があるのでしょうか?
支配的なリスクが、持ち出し(exfiltration)から、完全性(integrity)、出所(provenance)、そしてコンプライアンスへと移っていくからです。実際には、ローカル推論は多くの企業がまだ運用化していない3種類の「見えない領域(ブラインドスポット)」を生みます。
1. コードおよび意思決定の汚染(完全性リスク)
ローカルモデルが導入されることが多いのは、それが速く、プライベートで、「承認は不要」だからです。欠点は、それらが企業環境に対して十分に検証されていないことが多い点です。
よくある状況: 上級開発者が、ベンチマークが良いコミュニティ調整済みのコーディングモデルをダウンロードします。そして社内の認証ロジック、決済フロー、インフラのスクリプトを貼り付けて「きれいにする」ための手直しをさせます。モデルは有能に見える出力を返し、コンパイルでき、ユニットテストも通りますが、セキュリティ体制を微妙に悪化させます(弱い入力検証、危険なデフォルト、脆い並行性の変更、社内で許可されていない依存関係の選択など)。開発者はその変更をコミットします。
そのやり取りがオフラインで行われていた場合、AIがコード経路に影響したという記録がまったく残っていないかもしれません。そして後になってインシデント対応を行う際には、主要因の可視性がない状態で、症状(脆弱性)の調査をすることになります(統制されていないモデル利用という根本原因を見通せないまま)。
2. ライセンスおよびIPの露出(コンプライアンスリスク)
多くの高性能モデルには、商用利用の制限、帰属(アトリビューション)要件、利用分野の上限、またはプロプライエタリ製品の開発と両立しない可能性のある義務が含まれるライセンスが同梱されています。従業員がモデルをローカルで実行すると、その利用は組織の通常の調達・法務レビューのプロセスを迂回し得ます。
チームが非商用モデルを使って本番コード、ドキュメント、または製品の振る舞いを生成する場合、会社は、後になってM&Aのデューデリジェンス、顧客のセキュリティレビュー、あるいは訴訟の場で顕在化するリスクを引き継ぐ可能性があります。難しいのはライセンス条項だけではなく、インベントリとトレーサビリティがないことです。ガバナンスされたモデルハブや利用記録がなければ、「どこで何が使われたのか」を証明できないかもしれません。
3. モデル供給網の露出(出所リスク)
ローカル推論は、ソフトウェア供給網の問題も変えます。エンドポイントには、大きなモデル成果物や、その周辺のツールチェーンが蓄積し始めます。ownloaders、コンバータ、ランタイム、プラグイン、UIシェル、そしてPythonパッケージです。
ここには重要な技術的なニュアンスがあります。ファイル形式が重要なのです。Safetensorsのような新しい形式は恣意的なコード実行を防ぐよう設計されていますが、古いPickleベースのPyTorchファイルは、読み込むだけで悪意のあるペイロードを実行し得ます。開発者がHugging Faceや他のリポジトリから検証されていないチェックポイントを取得しているなら、彼らはデータをダウンロードしているだけではなく、エクスプロイトもダウンロードしている可能性があります。
セキュリティチームは何十年もかけて、未知の実行ファイルを敵対的なものとして扱う学習をしてきました。BYOMは、その考え方をモデル成果物と、その周辺のランタイムスタックにまで拡張することを求めます。今日最も大きい組織的なギャップは、多くの企業がモデルに対して同等のソフトウェア部品表(SBOM)を持っていないことです。出所、ハッシュ、許可された提供元、スキャン、そしてライフサイクル管理です。
BYOMを緩和する:モデルの重みをソフトウェア成果物として扱う
URLをブロックすることでローカル推論を解決することはできません。エンドポイント対応の制御と、安全な道を簡単にする開発者体験が必要です。
実行可能な方法が3つあります:
1. ガバナンスをエンドポイントまで降ろす
ネットワークDLPやCASBはクラウド利用に対しては依然として重要ですが、BYOMにはそれだけでは不十分です。ローカルモデル利用を、特定のシグナルを探すことでエンドポイントのガバナンス問題として扱い始めてください:
インベントリと検出: .ggufファイルのように2GBを超える高精度な指標、llama.cpp やOllamaのようなプロセス、さらに共通のデフォルトポート11434で待ち受けているローカルリスナーをスキャンします。
プロセスおよびランタイムの認識: 未承認のランタイムや未知のローカル推論サーバから、反復する高いGPU/NPU(ニューラル処理ユニット)利用を監視します。
デバイスポリシー: モバイルデバイス管理(MDM)およびエンドポイント検出と応答(EDR)のポリシーを使って、未承認のランタイムのインストールを制御し、エンジニアリング端末に最低限のハードニングを強制します。目的は試行錯誤を罰することではありません。可視性を取り戻すことです。
2. 敷かれた道を用意する:社内の厳選されたモデルハブ
シャドーAIは、しばしば摩擦の結果として生まれます。承認済みのツールは制約が厳しすぎる、汎用的すぎる、あるいは承認に時間がかかりすぎます。より良いアプローチは、次を含む厳選された社内カタログを提供することです:
一般的なタスク(コーディング、要約、分類)向けの承認済みモデル
検証済みライセンスと利用ガイダンス
ハッシュ付きの固定バージョン(Safetensorsのようなより安全な形式を優先)
機密データが許可される/されない場所を含む、安全なローカル利用のための明確なドキュメント。開発者に「あさり」をやめさせたいのなら、もっと良いものを渡してください。
3. ポリシー言語を更新する:「クラウドサービス」ではもう不十分
多くの許容利用ポリシーは、SaaSやクラウドツールについて語ります。BYOM(Bring Your Own Models)では、明示的に次をカバーするポリシーが必要です:
法人のエンドポイント上でのモデル成果物のダウンロードと実行
許容される入手元
ライセンス遵守に関する要件
機密データを含むモデルの利用ルール
ローカル推論ツールに対する保存およびログ記録の期待値 ローカル推論ツールに対する保存およびログ記録の期待を明確にする必要があります。これは強権的である必要はありません。曖昧さのないものにする必要があります。
境界線は再びデバイスへと戻る
この10年、セキュリティ制御を「上」へ、つまりクラウドへ移してきました。ローカル推論は、AI活動の意味のある一部を「下」へ、エンドポイントへと引き戻しています。
シャドーAIがエンドポイントへ移ったことを示す5つのシグナル:
大規模なモデル成果物: .gguf や .pt ファイルによる説明のつかないストレージ消費。
ローカル推論サーバー: 11434(Ollama)のようなポートで待ち受けるプロセス。
GPU利用のパターン: オフライン時、またはVPNから切断されているのにGPU使用が急増。
モデルの棚卸しができていない: コード出力を特定のモデルのバージョンに紐づけられない。
ライセンスの曖昧さ: 本番ビルドに「非商用」モデル重みが含まれている。
シャドーAI 2.0は、仮想の未来ではなく、高速なハードウェア、配布の容易さ、そして開発者の需要という、予測可能な結果です。ネットワーク制御だけに注力するCISOは、従業員のデスクの上にそのまま置かれているシリコン上で起きていることを見落とします。
AIガバナンスの次のフェーズは、ウェブサイトをブロックすることよりも、生産性を損なわずに、エンドポイントで成果物・来歴(プロベナンス)・ポリシーを管理することに重点が置かれます。
Jayachander Reddy KandakatlaはシニアMLOpsエンジニアです。

