生物兵器化に向けたモデル能力評価と安全策

arXiv cs.AI / 2026/4/23

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

arXivの研究では、ChatGPT 5.2 Auto、Gemini 3 Pro Thinking、Claude Opus 4.5、Meta Muse Spark Thinkingの複数の最先端モデルを、良性のSTEMプロンプトでベンチマークし、「誤用に結びつき得る運用知能」を評価することで悪用リスクを検討しています。
良性の定量タスクではGeminiとMetaが非常に高いスコアを示した一方、ChatGPTは「text thinning」により有用性が部分的とされ、Claudeは詳細が最も少なく、いくつかの拒否は誤検知のように見えると報告されています。
さらに、微妙な有害意図を含む別セットでは弱点が検出され、特にエッジケースでGeminiに文脈理解の乏しさが示唆され、能力向上とモデレーション（安全制御）の調整のズレが懸念されます。
研究者らは、生物の不正利用が地政学的な道具としてより一般化し得ると主張し、米国の政策対応を急ぐ必要性を述べるとともに、25のリスク区分に基づいて「高リスクのエージェント」を見分けるガイダンスを提示しています。
例として、毒性植物から混雑した交通機関へのエスカレーションや、特定のアクセス環境（国際的・匿名・ログアウト時のAIモードなど）で有害な生成／抽出ワークフローが成立し得るケースが挙げられています。

要旨: AIのリーダーや安全性に関する報告は、モデルの推論が進歩することで、生物学的な悪用が、低い専門知識を持つユーザーによっても可能になるかもしれないとますます警告している。一方で大規模ラボは、防護策が拡大しているものの、確立されたものというよりはなお進化の途上であると述べている。本研究は、ChatGPT 5.2 Auto、Gemini 3 Pro Thinking、Claude Opus 4.5、そしてMetaのMuse Spark Thinkingを、初心者向けに構成された73件の、開かれた良性のSTEMプロンプトでベンチマークし、運用上の知能を測定する。良性の定量タスクでは、GeminiとMetaの両方が非常に高いスコアを示した。ChatGPTは部分的に有用だったが、文章が薄く（情報量が減って）なり、Claudeは最も記述が少なく、いくつかの見かけ上の誤った肯定（false-positive）の拒否も見られた。2つ目のテストセットでは、微妙な有害意図を検出した。エッジケースのプロンプトでは、Geminiが文脈認識に欠けているように見えることが明らかになった。これらの結果は、能力がモデレーションの校正（キャリブレーション）を上回っているように見えたGeminiに対して、集中的な武器化（weaponization）分析を行うに値するものだった。Geminiは4つのアクセス環境でテストされ、報告されている事例には、ヤマシダ（poison-ivy）から混雑した交通機関へのエスカレーション、国際的に匿名化されたログアウト状態のAIモードを通じた毒の生成と抽出、ならびにその他の懸念される例が含まれる。生物学的な悪用は、地政学的な手段としてより一般的になる可能性があり、とりわけ、モデルの出力が規制対象の技術データとして扱われるようになれば、米国の政策対応の緊急性が高まる。高リスクのエージェント25件に対して、正当な利用ケースとより高リスクなケースを区別するための指針を示す。