GitHubがCTRL-Zを踏み、結局ユーザーデータでAIを訓練すると決定

The Register / 2026/3/26

📰 ニュースDeveloper Stack & InfrastructureIndustry & Market Moves

要点

  • GitHubはAI訓練ポリシーを変更しており、4月24日から、ユーザーがオプトアウトしない限りユーザーデータを使用してAIモデルを訓練する計画です。
  • この記事ではこの決定を「CTRL-Z」として取り上げており、GitHubが以前はAI訓練データに関して別の立場へと移行していたことを示唆しています。
  • ユーザーは自分のデータがAI訓練に含まれないようにするための対応を取る必要があり、この変更の主な関心はプライバシーとガバナンスのワークフローにあります。
  • この変更は、GitHub上でホストされるコードに関して、組織が同意、データ保持、コンプライアンスをどのように管理するかに影響します。
  • この動きは、開発者向けツールベンダーに対して透明性や訓練データのユーザーによる制御に関する期待を左右する可能性があります。

GitHubがCTRL-Zを食らい、「やっぱりユーザーデータでAIを学習させる」と決める

4月24日からは、オプトアウトしない限りオクトキャットにエサを与えることになります

Thu 26 Mar 2026 // 00:13 UTC

MicrosoftのGitHubは来月、顧客のインタラクションデータ――「具体的には入力、出力、コードスニペット、そしてそれに関連するコンテキスト」――を使ってAIモデルを学習し始める予定です。

コードロッカー(Code Locker)の改訂版ポリシーは、4月24日時点でCopilot Free、Pro、Pro+の各顧客に適用されます。Copilot BusinessおよびCopilot Enterpriseの利用者は、契約の条件により対象外です。Copilotにアクセスする学生や教員も同様に免除されます。

対象となる人は、「確立された業界慣行」に従ってオプトアウトすることも可能です。つまり、オプトインが一般に求められる欧州の慣行ではなく、米国の標準に基づくということです。オプトアウトするには、GitHubの利用者は/settings/copilot/featuresにアクセスし、プライバシーの見出しの下にある「AIモデル学習のためにGitHubが私のデータを使用することを許可する」を無効にしてください。

GitHubのプロダクト担当最高責任者であるMario Rodriguezは、あなたにそうしてほしくないようです。

彼はブログ記事の中で、「参加することで、当社のモデルが開発ワークフローをよりよく理解し、より正確で安全なコードのパターンに関する提案を提供できるようになり、潜在的なバグが本番環境に到達する前にそれを見つける手助けができる能力も高まります」と書いています。

その貪欲な振る舞いを言い訳するために、GitHubはFAQで、AnthropicJetBrains、そして法人の親会社であるMicrosoftが、同様のオプトアウトによるデータ利用ポリシーを運用していると述べています。

変更の理由についてRodriguezは、対話データによって企業のAIモデルの性能が向上するとしている。さらに同氏は、Microsoftの従業員からの対話データを追加したことで、AIモデルの提案に対する受け入れ率が上がるといった、意味のある改善がもたらされたと主張しています。

GitHubが欲しているデータには以下が含まれます:

  • 受け入れられた、または修正されたモデルの出力;
  • コードスニペットが表示されたなどの、モデルへの入力;
  • カーソル位置の周辺にあるコードの文脈;
  • あなたが書いたコメントやドキュメント;
  • ファイル名およびリポジトリ構造;
  • Copilot機能とのやり取り(例:チャット);そして
  • フィードバック(例:親指の上/下の評価)。

このポリシー転換は、ある程度GitHubの「private repositories(非公開リポジトリ)」の意味を変えるものでもある。建前としては「あなたと、あなたが明示的にアクセス権を共有した相手、そして組織リポジトリの場合は、一定の組織メンバー」にだけアクセス可能だということになっている。しかし、より正確には「GitHubの非公開*リポジトリ」と表現した方がよいかもしれない。*は「private」という語のGitHubによる定義の限界を示すためのものだ。

FAQが説明しているとおりです。「Copilotの利用者の設定が、対話データでモデル学習を有効にするようになっている場合、その利用者がそのリポジトリで作業しながらCopilotを使用している最中に、非公開リポジトリからのコードスニペットが収集され、モデル学習に使用される可能性があります。」

GitHubコミュニティで最近交わされている雑談には、この計画への熱狂はあまり含まれていない。絵文字による投票だけで判断すると、ユーザーが提示したのは59回の親指を下げる投票と、わずか3回のロケット船だけであり、これが何らかの興奮の度合いを示していることは理解しています。

しかし、この記事が提出された時点で変更についてコメントしていた39件の投稿の中で、このアイデアを本当に支持したのは、GitHubの開発者リレーション担当VPであるMartin Woodward以外にはいません。

ユーザーの憤りは、少なくとも一部は軽減されるかもしれない。というのも、GitHubの利用者が、OpenAIのCodex――GitHub Copilotで使用されている――が「GitHubから公開されているコードを用いて微調整されたGPT言語モデル」だと認識していれば、という話です。この言い回しからすると、データ漬けのAIの馬はすでに柵の外に出てしまっている、ということになります。

今この時点で扉を閉めても、AI業界が、熱心な同意の強い指標を求めずに集められたデータの上に築かれているという事実は変わりません。®

これに近いもの
×

より絞り込んだ話題

より広いトピック

詳細情報

これらに似た内容
×

より絞り込んだトピック

より広いトピック