AI Navigate

タイ語に対して14の埋め込みモデルを検証 — ランキングは以下のとおり

Reddit r/LocalLLaMA / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Qwen3-Embedding-4B はタイ語用の MTEB ベンチマークをリードしており、15 のタイ語タスクで 74.41 点を記録。続くのは KaLM-Gemma3-12B(73.92)、BOOM_4B_v1(71.84)、その他のモデルです。
  • Qwen3-Embedding-0.6B は小型ながら際立って強力で、タイ語タスクで4Bモデルにほぼ匹敵します。一方、bge-m3 は堅実ですが、タイ語特化という点では特に強みがあるわけではありません。
  • すべてのベンチマークはタイ王国の国立スーパーコンピュータ(LANTA)上で実行され、結果は公式の MTEB リポジトリに統合され、タスクごとのインタラクティブなリーダーボードが公開されています。
  • この知見はタイ語 NLP のモデル選択に役立ち、埋め込みオプションを評価する研究者や ML エンジニアにとって有用です。

A100 GPU を使用して 15 のタイ語タスクで MTEB ベンチマークを実行しました。結果:

  1. Qwen3-Embedding-4B — 74.41
  2. KaLM-Gemma3-12B — 73.92
  3. BOOM_4B_v1 — 71.84
  4. jina-v5-text-small — 71.69
  5. Qwen3-Embedding-0.6B — 69.08
  6. multilingual-e5-large — 67.22
  7. jina-v5-text-nano — 66.85
  8. bge-m3 — 64.77
  9. jina-v3 — 57.81

Qwen3-0.6B はそのサイズにしては印象的です — タイ語のタスクでは 4B モデルにほぼ匹敵します。bge-m3 は堅実ですが、タイ語専用として特に特筆すべき点はありません。

タスク別内訳付きのインタラクティブなリーダーボード: https://anusoft.github.io/thai-mteb-leaderboard/

すべてのベンチマークはタイ王国の国立スーパーコンピューター(LANTA)上で実行されました。結果は公式の MTEB リポジトリに統合されました。

投稿者 /u/anusoft
[リンク] [コメント]