「検閲除去版モデル」をアピールするAIモデルがまったく検閲を除去できていないという指摘

GIGAZINE / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

「検閲除去版モデル」を名乗るAIが、検閲を回避できるとする主張に反して実際には検閲の除去に失敗していると指摘されている。
“除去できている”という見せ方（プロンプトや条件設定など）が不十分で、挙動としては規制を突破できていない可能性がある。
モデルの訴求（ベンダー/開発者側の説明）と、第三者検証での実測結果が食い違っている点が問題視されている。
検閲回避を期待する利用者にとっては、導入判断の前に再現性のある評価が必要になるという示唆がある。

一般的なAIモデルは、不適切な応答を防ぐために事後学習による「検閲」が行われていますが、Gemmaなどのオープンモデルに調整を施して「検閲を除去した」とアピールするサードパーティー製モデルも数多く公開されています。しかし、AIに関する調査レポートを公開しているMorgin.aiが、たとえ「検閲なし」とされているAIモデルであっても事前学習によって出力がゆがめられていると指摘しました。

続きを読む...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →