タイ語に対して14の埋め込みモデルを検証 — ランキングは以下のとおり

Reddit r/LocalLLaMA / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Qwen3-Embedding-4B はタイ語用の MTEB ベンチマークをリードしており、15 のタイ語タスクで 74.41 点を記録。続くのは KaLM-Gemma3-12B（73.92）、BOOM_4B_v1（71.84）、その他のモデルです。
Qwen3-Embedding-0.6B は小型ながら際立って強力で、タイ語タスクで4Bモデルにほぼ匹敵します。一方、bge-m3 は堅実ですが、タイ語特化という点では特に強みがあるわけではありません。
すべてのベンチマークはタイ王国の国立スーパーコンピュータ（LANTA）上で実行され、結果は公式の MTEB リポジトリに統合され、タスクごとのインタラクティブなリーダーボードが公開されています。
この知見はタイ語 NLP のモデル選択に役立ち、埋め込みオプションを評価する研究者や ML エンジニアにとって有用です。

A100 GPU を使用して 15 のタイ語タスクで MTEB ベンチマークを実行しました。結果：

Qwen3-0.6B はそのサイズにしては印象的です — タイ語のタスクでは 4B モデルにほぼ匹敵します。bge-m3 は堅実ですが、タイ語専用として特に特筆すべき点はありません。

タスク別内訳付きのインタラクティブなリーダーボード: https://anusoft.github.io/thai-mteb-leaderboard/

すべてのベンチマークはタイ王国の国立スーパーコンピューター（LANTA）上で実行されました。結果は公式の MTEB リポジトリに統合されました。

Qiita

Dev.to

Dev.to

Dev.to

Dev.to