FinSafetyBench：実世界の金融シナリオにおけるLLMの安全性評価

arXiv cs.CL / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本記事は、金融コンプライアンスに違反する要求をLLMが拒否できるかを評価するための二言語（英語・中国語）レッドチーミング用ベンチマーク「FinSafetyBench」を提案している。
FinSafetyBenchは、実世界の金融犯罪事例と倫理基準に基づき、金融犯罪と倫理違反を含む14のサブカテゴリで構成されている。
一般用途および金融特化のLLMを、代表的な3つの攻撃設定で実験した結果、敵対的なプロンプトがコンプライアンス防護を回避できる重要な脆弱性が見つかった。
分析では、中国語文脈のほうが攻撃への感受性が高いこと、またプロンプトレベルの防御は、洗練された、あるいは暗黙的な操作戦略には限界があることが示されている。

Anthropic News

日経XTECH

The Verge

Dev.to

Dev.to