GitHubがCTRL-Zを食らい、「やっぱりユーザーデータでAIを学習させる」と決める
4月24日からは、オプトアウトしない限りオクトキャットにエサを与えることになります
MicrosoftのGitHubは来月、顧客のインタラクションデータ――「具体的には入力、出力、コードスニペット、そしてそれに関連するコンテキスト」――を使ってAIモデルを学習し始める予定です。
コードロッカー(Code Locker)の改訂版ポリシーは、4月24日時点でCopilot Free、Pro、Pro+の各顧客に適用されます。Copilot BusinessおよびCopilot Enterpriseの利用者は、契約の条件により対象外です。Copilotにアクセスする学生や教員も同様に免除されます。
対象となる人は、「確立された業界慣行」に従ってオプトアウトすることも可能です。つまり、オプトインが一般に求められる欧州の慣行ではなく、米国の標準に基づくということです。オプトアウトするには、GitHubの利用者は/settings/copilot/featuresにアクセスし、プライバシーの見出しの下にある「AIモデル学習のためにGitHubが私のデータを使用することを許可する」を無効にしてください。
GitHubのプロダクト担当最高責任者であるMario Rodriguezは、あなたにそうしてほしくないようです。
彼はブログ記事の中で、「参加することで、当社のモデルが開発ワークフローをよりよく理解し、より正確で安全なコードのパターンに関する提案を提供できるようになり、潜在的なバグが本番環境に到達する前にそれを見つける手助けができる能力も高まります」と書いています。
その貪欲な振る舞いを言い訳するために、GitHubはFAQで、Anthropic、JetBrains、そして法人の親会社であるMicrosoftが、同様のオプトアウトによるデータ利用ポリシーを運用していると述べています。
変更の理由についてRodriguezは、対話データによって企業のAIモデルの性能が向上するとしている。さらに同氏は、Microsoftの従業員からの対話データを追加したことで、AIモデルの提案に対する受け入れ率が上がるといった、意味のある改善がもたらされたと主張しています。
GitHubが欲しているデータには以下が含まれます:
- 受け入れられた、または修正されたモデルの出力;
- コードスニペットが表示されたなどの、モデルへの入力;
- カーソル位置の周辺にあるコードの文脈;
- あなたが書いたコメントやドキュメント;
- ファイル名およびリポジトリ構造;
- Copilot機能とのやり取り(例:チャット);そして
- フィードバック(例:親指の上/下の評価)。
- AIのサプライチェーン攻撃はマルウェアすら不要だ…ただ“毒を盛った”ドキュメントを投稿するだけ
- Dellが法人向けノートPCをスリム化し、冷却とバッテリー寿命を厚くする
- Jen Easterly(サイバーセキュリティの「たゆまぬ楽観主義者」)は、来年のRSACに連邦政府が戻ってくることを期待
- Oracle:AIエージェントは推論し、決定し、実行できる――ただし責任の問題は残る
このポリシー転換は、ある程度GitHubの「private repositories(非公開リポジトリ)」の意味を変えるものでもある。建前としては「あなたと、あなたが明示的にアクセス権を共有した相手、そして組織リポジトリの場合は、一定の組織メンバー」にだけアクセス可能だということになっている。しかし、より正確には「GitHubの非公開*リポジトリ」と表現した方がよいかもしれない。*は「private」という語のGitHubによる定義の限界を示すためのものだ。
FAQが説明しているとおりです。「Copilotの利用者の設定が、対話データでモデル学習を有効にするようになっている場合、その利用者がそのリポジトリで作業しながらCopilotを使用している最中に、非公開リポジトリからのコードスニペットが収集され、モデル学習に使用される可能性があります。」
GitHubコミュニティで最近交わされている雑談には、この計画への熱狂はあまり含まれていない。絵文字による投票だけで判断すると、ユーザーが提示したのは59回の親指を下げる投票と、わずか3回のロケット船だけであり、これが何らかの興奮の度合いを示していることは理解しています。
しかし、この記事が提出された時点で変更についてコメントしていた39件の投稿の中で、このアイデアを本当に支持したのは、GitHubの開発者リレーション担当VPであるMartin Woodward以外にはいません。
ユーザーの憤りは、少なくとも一部は軽減されるかもしれない。というのも、GitHubの利用者が、OpenAIのCodex――GitHub Copilotで使用されている――が「GitHubから公開されているコードを用いて微調整されたGPT言語モデル」だと認識していれば、という話です。この言い回しからすると、データ漬けのAIの馬はすでに柵の外に出てしまっている、ということになります。
今この時点で扉を閉めても、AI業界が、熱心な同意の強い指標を求めずに集められたデータの上に築かれているという事実は変わりません。®
より絞り込んだ話題
- 2FA
- AdBlock Plus
- 高度な持続的脅威
- AIOps
- アプリ
- アプリケーション配信コントローラー
- Audacity
- 認証
- BEC
- ブラックハット
- BSides
- バグバウンティ
- Center for Internet Security
- CHERI
- CISO
- 共通脆弱性評価システム
- Confluence
- クッキー
- サイバー犯罪
- サイバーセキュリティ
- サイバーセキュリティ・インフラストラクチャ・セキュリティ庁
- サイバーセキュリティ情報共有法
- データベース
- データ漏えい
- データ保護
- データ窃取
- DDoS
- DeepSeek
- DEF CON
- デジタル証明書
- 暗号化
- エンドポイント保護
- エクスプロイト
- ファイアウォール
- FOSDEM
- FOSS
- Gemini
- Google AI
- Google Project Zero
- GPT-3
- GPT-4
- Grab
- グラフィックス・インターチェンジ・フォーマット
- ハッカー
- ハッキング
- ハクティビズム
- IDE
- 身元詐称
- 画像圧縮
- インシデント対応
- 情報セキュリティ
- インフラストラクチャのセキュリティ
- Jenkins
- ケンナ・セキュリティ
- 大規模言語モデル
- レガシー技術
- LibreOffice
- 機械学習
- 地図
- MCubed
- Microsoft 365
- Microsoft Office
- Microsoft Teams
- モバイルデバイス管理
- NCSAM
- NCSC
- ニューラルネットワーク
- NLP
- OpenOffice
- パロアルトネットワークス
- パスワード
- 個人を特定できる情報
- フィッシング
- プライバシー・サンドボックス
- プログラミング言語
- QRコード
- 誤りのない鍵配送
- ランサムウェア
- リモートアクセス型トロイの木馬
- 生成のための検索拡張
- レトロコンピューティング
- REvil
- RSAカンファレンス
- 検索エンジン
- ソフトウェア部品表
- ソフトウェアのバグ
- ソフトウェアライセンス
- スパム送信
- スパイウェア
- スター・ウォーズ
- 監視
- テンソル処理ユニット
- テキストエディター
- TLS
- TOPS
- トロイの木馬
- トラステッド・プラットフォーム・モジュール
- ユーザーインターフェース
- Visual Studio
- Visual Studio Code
- 脆弱性
- WannaCry
- WebAssembly
- Webブラウザー
- WordPress
- ゼロトラスト
より広いトピック
詳細情報
より絞り込んだトピック
- 2FA
- AdBlock Plus
- 高度な持続的脅威
- AIOps
- アプリ
- アプリケーションデリバリーコントローラー
- Audacity
- 認証
- BEC
- ブラックハット
- BSides
- バグバウンティ
- Center for Internet Security
- CHERI
- CISO
- 共通脆弱性評価システム
- Confluence
- クッキー
- サイバー犯罪
- サイバーセキュリティ
- サイバーセキュリティ・インフラストラクチャ安全保障庁
- サイバーセキュリティ情報共有法
- データベース
- データ漏えい
- データ保護
- データ窃取
- DDoS
- DeepSeek
- DEF CON
- デジタル証明書
- 暗号化
- エンドポイント保護
- エクスプロイト
- ファイアウォール
- FOSDEM
- フリー/オープンソースソフトウェア(FOSS)
- Gemini
- Google AI
- Google Project Zero
- GPT-3
- GPT-4
- Grab
- グラフィックス交換フォーマット
- ハッカー
- ハッキング
- ハクティビズム
- IDE
- なりすまし(ID)窃取
- 画像圧縮
- インシデント対応
- インフォセック
- インフラストラクチャのセキュリティ
- Jenkins
- ケンナセキュリティ
- 大規模言語モデル
- レガシー技術
- LibreOffice
- 機械学習
- 地図
- MCubed
- Microsoft 365
- Microsoft Office
- Microsoft Teams
- モバイルデバイス管理
- NCSAM
- NCSC
- ニューラルネットワーク
- NLP
- OpenOffice
- パロアルトネットワークス
- パスワード
- 個人を特定できる情報
- フィッシング
- プライバシー・サンドボックス
- プログラミング言語
- QRコード
- 異なる鍵の量子鍵配送
- ランサムウェア
- リモートアクセス型トロイの木馬
- リトリーバル強化生成
- レトロ・コンピューティング
- REvil
- RSAカンファレンス
- 検索エンジン
- ソフトウェア・ビル・オブ・マテリアル
- ソフトウェアのバグ
- ソフトウェアライセンス
- スパム送信
- スパイウェア
- スター・ウォーズ
- 監視
- テンソル処理ユニット
- テキストエディタ
- TLS
- TOPS
- トロイの木馬
- トラステッド・プラットフォーム・モジュール
- ユーザーインターフェース
- Visual Studio
- Visual Studio Code
- 脆弱性
- WannaCry
- WebAssembly
- Web ブラウザー
- WordPress
- ゼロトラスト