要旨:私たちは、F2LLM-v2 という新しい汎用的かつ多言語対応の埋め込みモデルファミリーを、80M から 14B までの8つの異なるサイズで提供します。
新たに厳選された6000万件の公開可能な高品質データサンプルの組成物を用いて訓練されたF2LLM-v2は、200言語を超える言語をサポートし、特に以前は十分に対応されていなかった中・低リソース言語に重点を置いています。
マトリョーシカ学習、モデルプルーニング、知識蒸留技術を組み合わせた二段階のLLMベース埋め込み訓練パイプラインを導入することで、以前のLLMベース埋め込みモデルよりはるかに効率的でありながら、競争力のある性能を維持するモデルを提示します。
広範な評価により、F2LLM-v2-14B が11件のMTEBベンチマークで首位を占めることを確認しました。一方、ファミリーの小型モデルも、資源制約のあるアプリケーションにおける新たな最先端を打ち立てています。
オープンソースの埋め込みモデル研究を促進するため、すべてのモデル、データ、コード、および中間チェックポイントを公開します。
F2LLM-v2: 多言語世界のための包摂性・高性能・高効率な埋め込み
arXiv cs.CL / 2026/3/20
📰 ニュースTools & Practical UsageModels & Research
要点
- F2LLM-v2 は、80M〜14Bパラメータにわたる新しい多言語埋め込みモデルファミリーで、6000万サンプルから成る厳選データセットで訓練され、200を超える言語をサポートします。
- 学習は、二段階の LLM ベースの埋め込みパイプラインを使用し、マトリョーシュカ学習、モデル剪定、および知識蒸留を組み合わせることで、性能を維持しつつ効率を高め、F2LLM-v2-14B が 11 件の MTEB ベンチマークで首位を獲得しています。
- このリリースはオープンソースアクセスを強調しており、すべてのモデル、データ、コード、および中間チェックポイントを研究コミュニティが利用できるようにしています。
- 小型モデルは資源制約のあるアプリケーションにおいて新たな最先端の成果を達成し、支援が不足している中・低資源言語のサポートを前進させます。