v1 のフォローアップ。ColQwen3.5-v2 は、Qwen3.5-4B をベースに ColPali の late-interaction レシピを用いた4.5Bパラメータのビジュアルドキュメント検索モデルです。
結果:
- ViDoRe V3 nDCG@10: 0.6177(現在リーダーボードのトップ)
- ViDoRe V1 nDCG@5: 0.9172(4Bモデルの中でトップ)
- ViDoRe V3 nDCG@5: 0.5913、TomoroAI との差を0.010から0.002へ縮小
v1 からの主な変更点は、4段階のトレーニングの代わりに2段階、1度だけマイニングして再利用されるハードネガティブ、開始時から組み込まれたドメインデータ(金融データ + 表)を取り込み、その後 v1 を 55/45 の重み比率で組み合わせたモデルに仕上げる点、シード数を3つに減らした点などで、より良い結果生み出しています。
Apache 2.0、HF 上のウェイト: https://huggingface.co/athrael-soju/colqwen3.5-4.5B-v2
ぜひ試してみてください!
[リンク] [コメント]