AI Navigate

SwissGov-RSD: 関連文書間の意味的差異をトークンレベルで認識するための人手注釈付きクロスリンガルベンチマーク

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • SwissGov-RSDは、関連する文書間の意味的差異をトークンレベルで認識する自然主義的な文書レベルのクロスリンガルベンチマークとして導入される。
  • 英語-ドイツ語、英語-フランス語、英語-イタリア語のマルチパラレル文書計224件を、人手注釈によるトークンレベル差異ラベルとともに含み、言語間評価を可能にします。
  • 本研究は、オープンソースおよびクローズドソースのLLMsとエンコーダーモデルを、さまざまなファインチューニング設定の下で評価し、単言語・文レベル・合成ベンチマークと比較して顕著なギャップを明らかにします。
  • 著者らは再現性と今後の研究を支援する目的で、コードとデータセットを公開します。
異なる文書間、特に異なる言語間での意味的差異を認識することは、テキスト生成の評価や多言語コンテンツの整合性の確保にとって重要です。しかし、独立したタスクとしては十分に注目されていません。これに対処するべく、SwissGov-RSDを導入します。これは、意味差異認識のための、初の自然主義的な文書レベルのクロスリンガルデータセットです。英語-ドイツ語、英語-フランス語、英語-イタリア語の計224件のマルチパラレル文書を、人手注釈者によるトークンレベルの差異注釈付きで含みます。我々は、この新しいベンチマークに対して、オープンソースおよびクローズドソースの大規模言語モデル(LLMs)とエンコーダーモデルを、さまざまなファインチューニング設定の下で評価します。我々の結果は、現行の自動手法が単言語・文レベル・合成ベンチマークに比べて性能が劣ることを示しており、LLMsとエンコーダーモデルの両方に顕著なギャップが存在することを明らかにしています。我々はコードとデータセットを公開します。