Mistral Moderation API(モデレーションAPI)の調査

Mistral AI Blog / 2026/5/28

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Mistral AIは、生成された出力に含まれ得る危険なコンテンツやポリシー違反の可能性を評価・フィルタリングするための「Moderation API」を提供しました。
  • このAPIは、Mistralモデルを使うアプリケーションにモデレーション機能を簡単に追加できる方法として位置づけられており、開発者が独自の安全性パイプラインを構築する負担を減らすことを狙っています。
  • リリースは実運用での導入ニーズを意識しており、モデルの再学習や複雑な後処理ではなくAPIとしてモデレーションを組み込める点が特徴です。
  • 標準化されたモデレーション確認により、さまざまなユースケースにわたってコンプライアンスと安全対応を強化することを目指しています。

ブログに戻る

2分で読めます

ブログ

リサーチ

Mistral Moderation API

2024年11月7日

Mistral AIチーム

ブログに戻る

2分で読めます

この記事を共有

返却形式: {"translated": "翻訳されたHTML"}

安全性は、AIを実用的にする上で重要な役割を果たします。Mistral AIでは、下流の導入(デプロイ)を保護するために、システムレベルのガードレールが不可欠だと考えています。そこで、コンテンツモデレーション用の新しいAPIを公開します。これは、Le Chatのモデレーションサービスを支えているのと同じAPIです。ユーザーの皆さまが、このツールを自分たちの特定のアプリケーションや安全性基準に合わせて活用し、調整できるようにするために提供を開始します。

ここ数か月の間に、業界および研究コミュニティ全体で、新しいLLMベースのモデレーションシステムに対する関心が高まっているのを私たちは目にしてきました。これにより、モデレーションをアプリケーション横断でよりスケーラブルかつ堅牢にすることができます。私たちのモデルは、以下で定義する9つのカテゴリのいずれかに入力テキストを分類するためのLLM分類器です。エンドポイントを2つ提供します。1つは生のテキスト用、もう1つは会話コンテンツ用です。望ましくないコンテンツは、その文脈に非常に固有であるため、会話コンテキスト内での「最後のメッセージ」を分類するようにモデルを訓練しました。詳細は技術ドキュメントをご覧ください。モデルはネイティブに多言語に対応しており、特にアラビア語、中国語、英語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語で訓練されています。

Detailed benchmarks

コンテンツモデレーション分類器は、効果的なガードレールのために最も関連性の高いポリシーカテゴリを活用し、資格のない助言やPII(個人を特定できる情報)など、モデルが生成する害への対処によって、LLMの安全性に対する実践的なアプローチを導入します。ポリシー定義の完全なセットと、開始方法の詳細は、 技術ドキュメント で確認できます。

パフォーマンス

以下では、内部テストセットにおけるポリシーごとのAUC PRを共有します。

Detailed benchmarks

私たちは、顧客と協力して、スケーラブルで軽量、かつカスタマイズ可能なモデレーションのツールを構築し共有していきます。また、研究コミュニティとも連携しながら、安全性の向上に向けた取り組みをより広い分野へ貢献していく所存です。

0%