Stability AIの年次誠実性・透明性レポート

Stability AI Blog / 2026/3/21

📰 ニュースIndustry & Market Moves

要点

  • この記事はStability AIの年次誠実性・透明性レポートの公表を知らせ、それをAIガバナンスにおけるより高い透明性への取り組みとして位置づけている。
  • レポートの中心テーマとして、誠実性・説明責任・責任あるAI開発への取り組みを強調している。
  • 投稿のメタデータとして、9月17日に公開され、著者はGuest Userと記されていることに言及している。
  • 今後も利害関係者を巻き込み、AIエコシステムの透明性を高める取り組みを継続していく意向を示している。

Stability AIの年次インテグリティ透明性レポート

Key Takeaways:

  • Stability AIでは、生成型AIの構築と展開を責任を持って行うことを約束しており、透明性が安全で倫理的なAIの基盤であると信じています。

  • この透明性レポートは、私たちのモデルがどのように開発・リリースされるかについて意味のある情報を共有する継続的な取り組みの一部であり、Safety by Design の原則を最前線に据えています。

  • 完全なレポートは、私たちの 子どもの安全ページ で読むことができます。

\"\"

目的:\u00a0

Stability AIでは、生成型AIを責任を持って構築・展開することに取り組んでおり、透明性が安全で倫理的なAIの基盤であると信じています。この透明性レポートは、Safety by Design の原則を最前線に据えたうえで、私たちのモデルがどのように開発・リリースされるかについて意味のある情報を共有する継続的な取り組みの一部です。私たちは、AIシステムを設計・テスト・監視する方法を含む安全性の取り組みを可視化したいと考えています。また、悪用を防止し、悪用に対処する方法も共有します。このレポートを通じて、ユーザー、開発者、研究者、政策立案者との説明責任を促進し、信頼を構築することを目指します。

範囲: 

動画、画像、3Dおよびオーディオのモデルは、当社のアプリケーションプログラミングインターフェース(API)でも利用可能です。

期間:

2024年4月 - 2025年4月

モデルの安全性アプローチ

Stability AIは、技術の悪用を防ぐことに深くコミットしています。私たちは倫理的責任を非常に真剮に受け止めており、悪意のある行為者からの保護のため、安全基準を強化する堅牢な予防策を導入しています。 

有害なコンテンツを防ぐという私たちの使命は、新しいモデルをリリースする前のデータセットを評価し、リスク評価を行う段階から始まります。私たちの有害コンテンツを防ぐアプローチは、3つの主要な領域に焦点を当てています:1) 学習データから有害なコンテンツを排除すること、(2) ユーザーが私たちのモデルを使用して有害なコンテンツを生成することを防ぐこと、(3) 当社の 適正利用ポリシー(AUP)を適用し、有害なコンテンツを禁止します。 

私たちのCSAMに対するポリシーは、行方不明・搾取された子供たちの国立センター(NCMEC)に児童性的搾取コンテンツ(CSAM)を報告することです。NCMEC は CyberTipline を介してこれらの報告を振り分け、適切な捜査機関へ伝達します。 

安全性と責任あるAIの実践

私たちの基盤となるモデルは、主に3つのデータ情報源を用いて開発されています: (1) インターネット上で公開されているデータ、(2) 第三者と提携してアクセスするデータ、(3) 研究者が生成する合成データ。  

画像、動画、3Dモデルに使用される学習データは、公開データセットと責任を持って調達された公的に利用可能なウェブサイトから派生しています。モデルカードはオンラインで利用可能です。私たちは、ダークウェブや成人向けサイトのような有害なコンテンツを広める情報源からデータを収集しません。また、ペイウォールの背後にある情報源から意図的にデータを収集することもありません。  

私たちは、社内で構築した NSFW(Not Safe For Work)分類器およびオープンソース分類器を使用して、トレーニングデータをフィルタリングします。Thorn の Safer の CSAM ハッシュリストおよび Internet Watch Foundation(IWF)のハッシュリストを、現在の訓練データの一部に適用し、CSAMは現在まで検出されていません。 

報告期間のトレーニングデータ指標は次のとおりです:

  • 訓練データセットで検出された CSAM および CSEM の件数: 0%

モデルとプラットフォーム API の安全性

私たちのモデルが有害なコンテンツを生成しないようにする取り組みに関しては、プラットフォーム API レベルとモデルレベルの両方で複数の緩和策を適用しています。 

プラットフォーム API レベルでは、ポリシー違反の入力と出力を検出するためのコンテンツフィルターや分類器といったリアルタイムの予防策を実装しています。既知の CSAM を検出・ブロック・報告する CSAM ハッシュシステムも統合しています。これらの層状の緩和策は、安全ポリシーの適用を支援し、技術の責任ある利用を支援します。

モデルレベルでは、ファインチューニングや安全性 LoRA などの手法を用い、構造化されたレッドチーム演習(ポリシー違反または有害な出力を探るためのモデルのテスト)から得られる洞察を踏まえて、モデルをリリースする前に行います。

レッドチーミング

当社のインテグリティチームは、レッドチーミングによってモデルのリスクを評価します。レッドチーミングは、重大なリスクを特定し緩和することに焦点を当てた安全評価プロセスの中核です。これには、内部および外部の専門家を巻き込み、潜在的な有害性をテストします。これらの構造化された評価は、潜在的なリスクの失敗モードを特定し、予防策を改善し、展開判断を通知します。レッドチーミングは、モデルとともに進化する継続的なプロセスであり、能力の進歩に合わせて新たなリスクに先取りして対応できるようにします。

成人の裸体・性的活動のプロンプトを指標として用い、CSAM/CSEM 生成能力へアクセスするアプローチをレッドチーミングで開発しました。また、Online CSEA Covert Intelligence Team (OCCIT, 英国の法執行機関) と協力して、Stable Diffusion 3 モデルのリリース前にレッドチーミング演習を実施しましたが、CSAMを生成できませんでした。もしレッドチーミングプロセスを通じて有害な機能が特定された場合、リリース前にそれらの概念を削除するため、モデルはさらなる安全性の微調整を受けます。 

報告期間のレッドチーミング指標は次のとおりです:

  • CSAMおよびCSEMの能力をストレステストした生成AIモデルの割合 (成人の裸体・性行為を描写するプロンプトを活用): 100%

  • このストレステストの結果、CSAMおよびCSEMに関連する問題を発見した生成AIモデルの割合: 0%

年齢要件

コンテンツを作成するために Stability AI の技術を使用する消費者は、まず同社の適正利用ポリシー(AUP)に同意する必要があります。AUP に記載されているとおり、ユーザーは18歳以上でなければならず、法律を違反したり、憎悪的または差別的なコンテンツの促進、子どもを搾取または害する、あるいは誤情報を含む情報の拡散を含む、その他の目的で私たちの技術を使用したり、他者に使用させたりしてはなりません。 

出所

Stability AI は API を通じて Content Provenance and Authenticity の連合(C2PA)を実装し、ユーザーやコンテンツ配信プラットフォームが AI 生成コンテンツを識別できるようにします。画像や動画、API 経由で生成されるオーディオメディア(効果音や楽器リフに焦点を当て、CSEM リスクを伴わないもの)は、生成に使われた生成AIツールを示すメタデータでタグ付けされます。このメタデータには、コンテンツを生成するのに使用されたモデル名とバージョン番号が含まれます。生成後、メタデータは暗号的な Stability AI 証明書でデジタル的に封印され、ファイル内に保存されます。 

公開しているモデルのコンテンツ生成プロセスには出所はまだ実装されていません。これらは、出所と追跡性をシステム全体で強化するために今後の作業が必要な分野です。

私たちは、他のタイプのウォーターマークソリューション(非 C2PA)で、画像出力の品質低下を招く課題を見つけましたが、出所およびコンテンツの真正性をより効果的で信頼性の高い方法で対処することを継続的に模索しています。研究と展開を進めるにつれて、堅牢で生成されたコンテンツの完全性を保つ出所ツールの改善に取り組み続けます。 

コンテンツのモデレーション

当社のインテグリティチームは、自動ツールと人間のレビューの両方を含むコンテンツモデレーションを行い、製品の疑わしいまたは悪用を評価または実施します。 

  • 自動検出:違反コンテンツをブロックしてモデルの拒否を通じてポリシーを施行します。社内で構築したテキストフィルターと NSFW 画像分類器を使い、ポリシーに違反するプロンプト、画像、動画を検出します。ユーザーが画像のアップロードや生成を行おうとしている時点で機能するコントロールに焦点を当てます:

    • 私たちは、ユーザーが画像を生成する際に提供するテキストプロンプトと指示に適用されるプロンプトフィルターを実装しました。これらのフィルターは、CSAMを含むAUPに違反する可能性のある画像の作成をユーザーに対してブロックすることを目的としています。

    • 私たちは、AUPに違反する可能性のある画像および動画のアップロードをフラグ付けし、コンテンツの生成をブロックするNSFW画像分類器を開発しました。 

    • Stability AI は、第三者サービス提供者 Thorn が維持する既知のCSAM画像のハッシュデータベースと、すべてのアップロード画像を照合します。ユーザーが一致する画像をアップロードしようとすると、その画像は拒否されます。 

    • 人間の審査: このため、私たちはユーザーの活動を監視できるよう、社内および外部のコンテンツモデレーションチームを設置しています。私たちのモデレーターは、フラグ付きのプロンプトと画像、非フラグのコンテンツの一部を審査し、必要に応じて執行措置を適用します。ユーザーのStability AIアカウントでCSAMが検出された場合、CyberTipline報告をNCMECへ提出するなど、適切な対応を取ります。警告の発出やアカウントの無効化といった追加措置を講じることもあります。下流のビジネス顧客が弊社製品を誤用しようとする際には、当社のコンテンツモデレーション専門家が直接関与します。例えば、当社のAPIは企業が特定のエンドユーザーに活動を追跡できる一意の識別子を渡すことを許可し、対応を取るのに役立ちます。 

    • 通知と不服申立て: 執行措置が取られる際には透明性のあるコミュニケーションを行うことを信条としています。私たちはユーザーに対して書面で決定を通知し、決定に対して< a href=\"https://stability.ai/safety/#submit-an-appeal\" target=\"\">申し立てを行う機会も提供します。 

    NCMEC Reporting

    Stability AI はオンライン CSAM との撲滅に専念しており、これは弊社の AUP により禁止されています。CSAM のすべての事例を National Center for Missing and Exploited Children (NCMEC) に報告し、NCMEC はこれらの報告を世界中の法執行機関へ転送します。このコミットメントを維持するため、当社の API を通じて検出された CSAM の事例を迅速かつ正確に NCMEC に報告することを保証する包括的なポリシーと厳格なトレーニングプログラムが確立されています。

    All Integrity employees are educated on the identification of CSAM and the critical steps for its immediate reporting. This training covers the legal obligations surrounding its detection, and the precise procedures for submitting reports to NCMEC. By close collaboration with NCMEC we are actively contributing to the global fight against child exploitation.

    以下は、報告期間の NCMEC 指標です:

    • Stability AIからNCMECへ送信された報告の総数: 13

    注意: 同一ユーザーに対して、複数の画像アップロードの試行が検知された場合など、複数の報告が提出されることがあります。 

    ユーザー reporting

    誰でも、悪用を報告する that they may suspect is taking place on our platform and provide feedback to our safety team.

    There has been no user reports submitted to Stability AI for CSAM and CSEM related model violations. 

    Collaboration 

    We have established leading collaborations across industry and government to prevent misuse, including: 

    • In April 2024, we announced our commitment to join Thorn and All Tech Is Human to enact child safety commitments for Gen AI through Safety by Design.

    • In July 2024, we announced our partnership with the Internet Watch Foundation (IWF), to tackle the creation of AI generated child sexual abuse imagery online. 

    • In July 2024, we joined Tech Coalition's Pathways program for expert advice, resources and opportunities to further build capacity to combat online child sexual exploitation and abuse.

    Looking Ahead

    As part of our ongoing commitment to responsible AI development and deployment, we are actively taking steps to align our practices with emerging responsible AI frameworks. This includes conducting internal audits, updating risk management processes, scaling our technology, and refining our transparency, safety, and human oversight protocols to meet evolving ethical standards. We are also closely monitoring regulatory developments and will continue to adapt our systems, documentation, and operational practices to ensure our compliance.

    You can read the full report below as well as on our Child Safety page.