PL-MTEB:ポーランド語マッシブ文テキスト埋め込みベンチマーク
arXiv cs.CL / 2026/4/27
💬 オピニオンModels & Research
要点
- 本論文では、ポーランド語向けの文テキスト埋め込みモデルを評価するベンチマーク「PL-MTEB」を導入し、5つのNLPカテゴリにまたがる30のタスクを扱います。
- PL-MTEBは既存のMTEBを拡張し、既存データセットに基づく12の新しいポーランド語タスクを追加し、さらに4つのクラスタリングタスク用に2つの新しいデータセットを作成しています。
- 著者らは、ポーランド語特化モデルと多言語モデルを含む、公開されている30の文テキスト埋め込みモデルを評価しました。
- 結果はタスク種別やモデル規模ごとに詳細に分析されており、準備したデータセット、評価用コード、取得した結果がGitHubで公開されています。




