F2LLM-v2: 多言語世界のための包摂性・高性能・高効率な埋め込み

arXiv cs.CL / 2026/3/20

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

F2LLM-v2 は、80M〜14Bパラメータにわたる新しい多言語埋め込みモデルファミリーで、6000万サンプルから成る厳選データセットで訓練され、200を超える言語をサポートします。
学習は、二段階の LLM ベースの埋め込みパイプラインを使用し、マトリョーシュカ学習、モデル剪定、および知識蒸留を組み合わせることで、性能を維持しつつ効率を高め、F2LLM-v2-14B が 11 件の MTEB ベンチマークで首位を獲得しています。
このリリースはオープンソースアクセスを強調しており、すべてのモデル、データ、コード、および中間チェックポイントを研究コミュニティが利用できるようにしています。
小型モデルは資源制約のあるアプリケーションにおいて新たな最先端の成果を達成し、支援が不足している中・低資源言語のサポートを前進させます。

要旨：私たちは、F2LLM-v2 という新しい汎用的かつ多言語対応の埋め込みモデルファミリーを、80M から 14B までの8つの異なるサイズで提供します。
新たに厳選された6000万件の公開可能な高品質データサンプルの組成物を用いて訓練されたF2LLM-v2は、200言語を超える言語をサポートし、特に以前は十分に対応されていなかった中・低リソース言語に重点を置いています。
マトリョーシカ学習、モデルプルーニング、知識蒸留技術を組み合わせた二段階のLLMベース埋め込み訓練パイプラインを導入することで、以前のLLMベース埋め込みモデルよりはるかに効率的でありながら、競争力のある性能を維持するモデルを提示します。
広範な評価により、F2LLM-v2-14B が11件のMTEBベンチマークで首位を占めることを確認しました。一方、ファミリーの小型モデルも、資源制約のあるアプリケーションにおける新たな最先端を打ち立てています。
オープンソースの埋め込みモデル研究を促進するため、すべてのモデル、データ、コード、および中間チェックポイントを公開します。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Gmailで返信を自動作成、「Google AI Plus」で驚異の時短術

日経XTECH

F2LLM-v2: 多言語世界のための包摂性・高性能・高効率な埋め込み

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Gmailで返信を自動作成、「Google AI Plus」で驚異の時短術

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer