Swiss-Bench SBP-002: スイスの法律および規制タスクに関するフロンティア・モデル比較

arXiv cs.CL / 2026/3/26

💬 オピニオンModels & Research

要点

  • Swiss-Bench SBP-002は、FINMA、Legal-CH、EFKのスイス規制領域を対象とした、ドイツ語・フランス語・イタリア語の3言語対応ベンチマークとして導入される
  • 専門家が作成した395件のアイテムを含み、7種類のタスクタイプをカバーする

概要: 近年の研究では、大規模言語モデルをスイスの法律翻訳(Niklausら、2025)や大学の試験に基づく学術的な法的推論(Fanら、2025)でベンチマークしてきましたが、既存のベンチマークでは、適用されたスイスの規制コンプライアンス業務に対する最先端モデルの性能を評価しているものはありません。私は、Swiss-Bench SBP-002を導入します。これは、3つのスイスの規制領域(FINMA、Legal-CH、EFK)にまたがる395件の専門家が作成したアイテムを、7つのタスクタイプと3つの言語(ドイツ語、フランス語、イタリア語)で構成した三言語ベンチマークです。さらに、2026年3月時点で10のフロンティアモデルを、ブラインドな3名の裁定LLMパネル(GPT-4o、Claude Sonnet 4、Qwen3-235B)によって評価する構造化された3次元の採点枠組みにより評価し、多数決の集約と重み付きκ(kappa)= 0.605を用います。参照解答は、独立した人間の法務専門家によって100件のサブセットで検証され、73%が正答(Correct)と評価され、誤答(Incorrect)は0%、完璧な法的正確性(Legal Accuracy)でした。結果は、記述的な性能クラスターが3つに分かれることを示します。すなわち、Tier A(35〜38%正答)、Tier B(26〜29%)、Tier C(13〜21%)です。このベンチマークは難易度が高いことが分かります。最上位モデル(Qwen 3.5 Plus)でさえ、正答は38.2%にとどまり、誤答は47.3%、部分的に正しい(partially correct)は14.4%です。タスクタイプ別の難易度には大きなばらつきがあります。法務翻訳と事例分析では正答率が69〜72%と高い一方で、規制に関するQ&A、ハルシネーション検出、ギャップ分析は9%未満に留まります。このラインナップ(7つのオープンウェイトと3つのクローズドソース)の中では、オープンウェイトモデルがランキング首位となり、複数のオープンウェイトモデルがクローズドソースの相手と同等、あるいは上回る結果を示します。これらの知見は、ゼロ検索(zero-retrieval)条件下でのスイスの規制タスクに対するフロンティアモデルの能力を評価するための、初期の経験的な参照点を提供します。