BTZSC: クロスエンコーダ、埋め込みモデル、リランキング、LLMにまたがるゼロショットテキスト分類のベンチマーク
arXiv cs.CL / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- BTZSCは、センチメント、トピック、意図、感情分類にまたがる22の公開データセットを横断する、総合的なゼロショットテキスト分類ベンチマークとして紹介される。
- 本研究は、NLIクロスエンコーダ、埋め込みモデル、リランキングモデル、指示調整済みLLMsの4つの主要モデルファミリーを、38個の公開およびカスタムのチェックポイントに対してベンチマークしている。
- 主な知見には、現代のリランキングモデル(例: Qwen3-Reranker-8B)がマクロF1=0.72で新たな最先端を打ち立て、GTE-large-en-v1.5のような埋め込みモデルが高い精度と良好な待機時間のバランスを提供する。
- 指示調整済みLLMsは4–12Bパラメータで最大0.67のマクロF1を達成し、特にトピック分類で優れているが、専門のリランキングには及ばない。NLIクロスエンコーダはバックボーンサイズが大きくなるにつれて頭打ちになる。
- スケーリングは主にリランキングとLLMsに恩恵をもたらし、埋め込みモデルにはあまり影響を与えない。著者らは、公正で再現性のあるゼロショットテキスト理解の進歩を支援するため、BTZSCと評価コードを公開している。
ゼロショットテキスト分類(ZSC)は、テキストを直接人間が読み取れるラベルの説明に照合することで、コストの高いタスク固有のアノテーションを排除する可能性を約束する。初期のアプローチは主に自然言語推論(NLI)にファインチューニングされたクロスエンコーダーモデルに依存してきたが、近年のテキスト埋め込みモデル、リランキング、および指示調整済みの大規模言語モデル(LLMs)の進展は、NLIベースのアーキテクチャの支配に挑戦している。しかし、これら多様なアプローチを体系的に比較することは依然として難しい。既存の評価、例えばMTEBは、教師ありプローブやファインチューニングを通じてラベル付きの例を取り入れることが多く、真のゼロショット能力が十分に探究されていない。これに対処するため、センチメント、トピック、意図、感情分類にまたがる22の公開データセットを網羅する総合ベンチマークBTZSCを導入する。BTZSCを活用して、4つの主要なモデルファミリー(NLIクロスエンコーダ、埋め込みモデル、リランキングモデル、指示チューニング済みLLMs)にわたる、38の公開およびカスタムのチェックポイントを体系的に比較する。我々の結果は次のとおりである:(i) 現代のリランキングモデルは、Qwen3-Reranker-8Bの例を挙げて、マクロF1=0.72で新たな最先端を打ち立てる。(ii) GTE-large-en-v1.5のような強力な埋め込みモデルは、精度のギャップを大幅に縮めつつ、精度と待機時間の最良のトレードオフを提供する。(iii) 4–12Bパラメータの指示チューニング済みLLMsは競争力のある性能(マクロF1は最大0.67)を達成し、特にトピック分類で卓越するが、専門のリランキングには及ばない。(iv) NLIクロスエンコーダは、バックボーンサイズが大きくなるにつれて頭打ちになる。(v) スケーリングは主にリランキングとLLMsに恩恵をもたらし、埋め込みモデルにはあまり影響を与えない。著者は、公正で再現性のあるゼロショットテキスト理解の進歩を支援するため、BTZSCと評価コードを公開している。