しばらく前から埋め込みモデルの評価(evals)を回していて、Microsoftのハリエル(Harrier)ファミリーから新しいモデルが出ました。ちなみにharrier-27bはローンチ時のバイナリMTEBで#1を取っています。これはただの偶然ではありません。そこで、その他全部と同じように同一の段階評価パイプラインにかけました――24のデータセット、3人の独立したLLMジャッジ、そして継続的な関連性スコア(0〜10)です。二値の合格/不合格はありません。
グローバルな数値
| モデル | NDCG@10 | Recall@100 |
|---|---|---|
| zembed-1 | 0.701 | 0.750 |
| voyage-4 | 0.699 | 0.731 |
| harrier-27b | 0.699 | 0.728 |
NDCG@10に関しては、上位は実質的に三つ巴の同率です。harrier-27bはきちんと競争力がありますし、勝負にならないとは言いません。とはいえNDCG@10がすべてではありません。特にRAGパイプラインではなおさらです。
運用上で本当に重要なのは[Recall@100](mailto:Recall@100)です。これは、関連ドキュメントがそもそも再ランキング(reranker)に到達するかどうか、つまり生き残るかどうかです。再ランキング側は、埋め込み側が提示したものなら並べ替えられますが、埋め込み側が落としたドキュメントを“捏造して”出すことはできません。ここではzembed-1がharrier-27bに対して+2.2ポイント上回っています。その差は下流へと増幅していきます。
再ランキングがリコール優位を増幅するところ
各埋め込みモデルを再ランキングと組み合わせたとき、リコールから精度への変換率がさらに明確に物語っていました:
| 手法 | Top-10の改善幅(範囲) |
|---|---|
| harrier-27b + reranker | +4.2% 〜 +4.4% |
| voyage-4 + reranker | +4.5% 〜 +4.9% |
| zembed-1 + reranker | +5.2% 〜 +6.6% |
zembed-1は、最初からより良い候補プールを再ランキング側に渡すため、再ランキング工程から一貫してより多くのシグナルを抽出できます。harrier-27bは、テストしたあらゆる閾値で上限が低めです。
harrier-27b vs voyage-4:2位争いの本当の勝負
私は、27Bパラメータを持ち、MTEBデビューで#1を取ったharrier-27bなら、2位の座からvoyage-4を余裕で押しのけると思っていました。ところがそうはなりませんでした。
彼らはNDCG@10で0.699の時点で完全に同率です。Recall@100ではvoyage-4がわずかに優位(0.731 vs 0.728)で、直接対決では12データセットでharrierの11を上回ります。
両者を実際に分けているのはデプロイです。voyage-4はAPI専用かつプロプライエタリで、harrier-27bはMITライセンスでセルフホスト可能です。APIへの依存なしでオープンな重みが必要なら、品質が同点であってもharrier-27bがその議論に勝ちます。ワークロードが多言語寄りで、かつ再ランキング重視なら、harrierも強いです。GPT-5の合成データで94言語にまたがって学習しており、英語以外の再ランキング課題でその差が出ています。
データセット別:harrier-27b vs zembed-1
全24のデータセットを1つずつ見ていきました。zembed-1は14個でharrier-27bに勝っています。パターンが示唆的です:
- zembed-1は指示の検索(instruction retrieval)で支配的です(Core17、News21、Robust04)。ここで必要なのはキーワードの一致ではなく、クエリ意図を解釈できることです。また法務・医療系のコーパス(LegalBench、CovidRetrieval、TRECCOVID)でも優位です。
- harrier-27bは多言語の再ランキングで本物の強さを示します。RuBQReranking(ロシア語)、TwitterHjerne(デンマーク語)です。用途が多言語で再ランキングに重きを置くなら、これは知っておく価値があります。
上位3モデルの中では、zembed-1が23データセット中11で1位を取っています(voyage-4とharrier-27bはそれぞれ6)。平均点だけが良いわけではなく、最も一貫して上位順位になるモデルなのです。
効率の問題
harrier-27b:27Bパラメータ、5,376次元ベクトル。zembed-1:4Bパラメータ、2,560次元ベクトル。
計算は約7倍、保存は2倍必要なのに、NDCG@10が0.2%悪くなり、[Recall@100](mailto:Recall@100)が2.2ポイント劣る。バッチジョブならそれを吸収できるかもしれません。しかしリアルタイムのRAGシステムでは、明確に悪い結果に対して本気の代償を払うことになります。
私の見解
harrier-27bは、voyage-4以降の最も強い新規参入として、妥当な“トップ3級”のモデルです。多言語ワークロード、あるいはセルフホスト可能なオープン重みが必要なチームなら、真剣に評価する価値があり、その条件においてはvoyage-4と本当に競っています。
ただし、リーダーボードは変わりません。zembed-1は24のうち14のデータセットで直接対決に勝ち、Recall@100でもリードし、それを計算の一部のコストで実現しています。
[link] [comments]



