CAPITU:ブラジルポルトガル語における文学的文脈を用いた指示追従の評価ベンチマーク

arXiv cs.CL / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • CAPITUは、ブラジル文学の正典8作品に基づくプロンプトを用いてLLMの指示追従を評価するための、ブラジルポルトガル語のベンチマークとして導入されます。
  • このベンチマークは7つのカテゴリにわたる59種類の指示タイプを扱い、そこには人手/LLMによる判定なしで自動検証可能となるよう設計された、ポルトガル語特有の言語的・構造的制約が含まれます。
  • 18の最先端モデルを用いた実験では、最先端の推論モデル(例:GPT-5.2で推論が98.5%)に対して非常に高い厳密精度が示され、またポルトガル語特化モデル(例:Sabiazinho-4が$0.13で87.0% 対 Claude-Haiku-4.5が$1.12で73.5%)では費用対効果がより良いことが示されます。
  • マルチターン設定ではモデルごとに性能のばらつきが大きく(会話レベル精度で約60%〜96%)、形態論的制約の扱い、正確な数え上げ、ターンをまたいだ制約の保持の劣化といった課題が明らかになります。
  • 著者らは、ポルトガル語における指示追従のさらなる研究を支援するために、完全なベンチマーク、評価コード、ベースライン結果を公開します。

要旨: ブラジルポルトガル語における大規模言語モデル(LLM)の指示追従能力を評価するためのベンチマークであるCAPITUを紹介します。英語に焦点を当てた既存ベンチマークや、汎用的なプロンプトを用いるベンチマークとは異なり、CAPITUはブラジル文学の8つの正典的作品の中にすべての課題を文脈づけ、検証可能な指示制約と、文化に根ざした内容を組み合わせます。このベンチマークは7つのカテゴリに整理された59種類の指示タイプで構成されており、LLMジャッジや人手による評価を必要とせずに、自動的に検証できるように設計されています。指示タイプには、ポルトガル語特有の言語学的制約(-ando/-endo/-indo、-inho/-inha、-mente のような語尾パターン)や構造的要件が含まれます。単一ターンおよび複数ターンの設定で、最先端モデル18個を評価します。結果から、最前線の推論モデルは強い性能を示します(推論付きGPT-5.2で厳密精度98.5%)。一方で、ポルトガル語に特化したモデルは競争力のある費用対効率を提供します(Sabiazinho-4: 0.13で87.0% 対 Claude-Haiku-4.5: 1.12で73.5%)。複数ターンの評価では、制約の持続性に大きなばらつきがあることが明らかになり、会話レベルの精度はモデル間で60%から96%の範囲に及びます。形態論的制約、正確な数え上げ、そしてターンをまたいだ制約持続性の劣化における具体的な課題を特定します。ポルトガル語における指示追従の研究を促進するため、完全なベンチマーク、評価コード、ベースライン結果を公開します。