私は24のデータセットで harrier-27b vs voyage-4 vs zembed-1 を比較しました。27Bパラメータ

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、埋め込みモデル Harrier-27B、Voyage-4、ZEmbed-1 を、0〜10の連続的な関連度スコアリングと、3人の独立したLLMジャッジを用いて、24のデータセットで評価し、その結果 NDCG@10 ではほぼ同点(約0.699〜0.701)であることを見いだしました。
  • NDCG は同点でも、ZEmbed-1 は運用面では Recall@100 でリードしており(Voyage-4 が 0.731、Harrier-27B が 0.728 に対し 0.750)、これは重要です。というのも、リトリーバは、そもそも埋め込み器が提示しなかった文書を取り戻せないためです。
  • スタック型のリトリーバ+再ランキング実験では、ZEmbed-1 が再ランキングによる recall-to-precision の改善が最も大きく(+5.2%〜+6.6%)、Harrier-27B はそれに遅れ(+4.2%〜+4.4%)、Voyage-4 はその中間に位置しました(+4.5%〜+4.9%)。
  • 「本当の勝負」は Harrier-27B と Voyage-4 の導入面にあります。Voyage-4 は API のみでプロプライエタリですが、Harrier-27B は MIT ライセンスでセルフホスト可能なため、オープンウェイトが必要な場合にはより良い選択肢になります。
  • これらの結果は、Harrier-27B の品質が競争力はあるものの、RAG 型のリトリーバルパイプラインのように recall が下流の改善を押し上げる場面では、ZEmbed-1(そして Voyage-4 に僅差で劣る)ほどの上限が低い可能性を示唆しています。

しばらく前から埋め込みモデルの評価(evals)を回していて、Microsoftのハリエル(Harrier)ファミリーから新しいモデルが出ました。ちなみにharrier-27bはローンチ時のバイナリMTEBで#1を取っています。これはただの偶然ではありません。そこで、その他全部と同じように同一の段階評価パイプラインにかけました――24のデータセット、3人の独立したLLMジャッジ、そして継続的な関連性スコア(0〜10)です。二値の合格/不合格はありません。

グローバルな数値

モデル NDCG@10 Recall@100
zembed-1 0.701 0.750
voyage-4 0.699 0.731
harrier-27b 0.699 0.728

NDCG@10に関しては、上位は実質的に三つ巴の同率です。harrier-27bはきちんと競争力がありますし、勝負にならないとは言いません。とはいえNDCG@10がすべてではありません。特にRAGパイプラインではなおさらです。

運用上で本当に重要なのは[Recall@100](mailto:Recall@100)です。これは、関連ドキュメントがそもそも再ランキング(reranker)に到達するかどうか、つまり生き残るかどうかです。再ランキング側は、埋め込み側が提示したものなら並べ替えられますが、埋め込み側が落としたドキュメントを“捏造して”出すことはできません。ここではzembed-1がharrier-27bに対して+2.2ポイント上回っています。その差は下流へと増幅していきます。

再ランキングがリコール優位を増幅するところ

各埋め込みモデルを再ランキングと組み合わせたとき、リコールから精度への変換率がさらに明確に物語っていました:

手法 Top-10の改善幅(範囲)
harrier-27b + reranker +4.2% 〜 +4.4%
voyage-4 + reranker +4.5% 〜 +4.9%
zembed-1 + reranker +5.2% 〜 +6.6%

zembed-1は、最初からより良い候補プールを再ランキング側に渡すため、再ランキング工程から一貫してより多くのシグナルを抽出できます。harrier-27bは、テストしたあらゆる閾値で上限が低めです。

harrier-27b vs voyage-4:2位争いの本当の勝負

私は、27Bパラメータを持ち、MTEBデビューで#1を取ったharrier-27bなら、2位の座からvoyage-4を余裕で押しのけると思っていました。ところがそうはなりませんでした。

彼らはNDCG@10で0.699の時点で完全に同率です。Recall@100ではvoyage-4がわずかに優位(0.731 vs 0.728)で、直接対決では12データセットでharrierの11を上回ります。

両者を実際に分けているのはデプロイです。voyage-4はAPI専用かつプロプライエタリで、harrier-27bはMITライセンスでセルフホスト可能です。APIへの依存なしでオープンな重みが必要なら、品質が同点であってもharrier-27bがその議論に勝ちます。ワークロードが多言語寄りで、かつ再ランキング重視なら、harrierも強いです。GPT-5の合成データで94言語にまたがって学習しており、英語以外の再ランキング課題でその差が出ています。

データセット別:harrier-27b vs zembed-1

全24のデータセットを1つずつ見ていきました。zembed-1は14個でharrier-27bに勝っています。パターンが示唆的です:

  • zembed-1は指示の検索(instruction retrieval)で支配的です(Core17、News21、Robust04)。ここで必要なのはキーワードの一致ではなく、クエリ意図を解釈できることです。また法務・医療系のコーパス(LegalBench、CovidRetrieval、TRECCOVID)でも優位です。
  • harrier-27bは多言語の再ランキングで本物の強さを示します。RuBQReranking(ロシア語)、TwitterHjerne(デンマーク語)です。用途が多言語で再ランキングに重きを置くなら、これは知っておく価値があります。

上位3モデルの中では、zembed-1が23データセット中11で1位を取っています(voyage-4とharrier-27bはそれぞれ6)。平均点だけが良いわけではなく、最も一貫して上位順位になるモデルなのです。

効率の問題

harrier-27b:27Bパラメータ、5,376次元ベクトル。zembed-1:4Bパラメータ、2,560次元ベクトル。

計算は約7倍、保存は2倍必要なのに、NDCG@10が0.2%悪くなり、[Recall@100](mailto:Recall@100)が2.2ポイント劣る。バッチジョブならそれを吸収できるかもしれません。しかしリアルタイムのRAGシステムでは、明確に悪い結果に対して本気の代償を払うことになります。

私の見解

harrier-27bは、voyage-4以降の最も強い新規参入として、妥当な“トップ3級”のモデルです。多言語ワークロード、あるいはセルフホスト可能なオープン重みが必要なチームなら、真剣に評価する価値があり、その条件においてはvoyage-4と本当に競っています。

ただし、リーダーボードは変わりません。zembed-1は24のうち14のデータセットで直接対決に勝ち、Recall@100でもリードし、それを計算の一部のコストで実現しています。

submitted by /u/Veronildo
[link] [comments]