PL-MTEB:ポーランド語マッシブ文テキスト埋め込みベンチマーク

arXiv cs.CL / 2026/4/27

💬 オピニオンModels & Research

要点

  • 本論文では、ポーランド語向けの文テキスト埋め込みモデルを評価するベンチマーク「PL-MTEB」を導入し、5つのNLPカテゴリにまたがる30のタスクを扱います。
  • PL-MTEBは既存のMTEBを拡張し、既存データセットに基づく12の新しいポーランド語タスクを追加し、さらに4つのクラスタリングタスク用に2つの新しいデータセットを作成しています。
  • 著者らは、ポーランド語特化モデルと多言語モデルを含む、公開されている30の文テキスト埋め込みモデルを評価しました。
  • 結果はタスク種別やモデル規模ごとに詳細に分析されており、準備したデータセット、評価用コード、取得した結果がGitHubで公開されています。

Abstract

本論文では、ポーランド語におけるテキスト埋め込みのための包括的ベンチマークである Polish Massive Text Embedding Benchmark(PL-MTEB)を導入する。PL-MTEB は、分類、クラスタリング、ペア分類、情報検索、意味的テキスト類似という5つのカテゴリにまたがる、30の多様なNLPタスクで構成される。本研究の範囲内で、既存のデータセットに基づいてMTEBに12の新しいポーランド語タスクを追加し、さらに4つのクラスタリングタスクを作成するために用いる2つの新しいデータセットを準備した。ポーランド語および多言語モデルを含む、公開されている30のテキスト埋め込みモデルを評価した。特定のタスク種別およびモデル規模に関して、結果を詳細に分析した。準備したデータセット、評価のためのソースコード、および得られた結果を、https://github.com/rafalposwiata/pl-mteb にて一般公開した。