AI Navigate

[P] ColQwen3.5-v1 4.5B ViDoRe V1(nDCG@5 0.917)でSOTA達成

Reddit r/MachineLearning / 2026/3/11

📰 ニュースModels & Research

要点

  • ColQwen3.5-v1はColPaliの後期相互作用手法を用いてQwen3.5-4Bをベースに構築された45億パラメータモデルです。
  • 現在、ViDoRe V1ベンチマークでnDCG@5スコア0.917によりランキング1位であり、ViDoRe V3でも競争力があります。
  • ハードネガティブマイニングを含む4つのフェーズでトレーニングされ、金融や表形式ドキュメントのドメイン特化を行っています。
  • モデルの重みはApache 2.0ライセンスでHugging Faceに公開されており、ColPaliリポジトリへのコードマージ用のプルリクエストが進行中です。
  • 開発者はトレーニング手順の簡素化とより多くのドメインへの対応を目指したv2の開発に取り組んでおり、まもなくViDoRe V3でのSOTA達成を目指しています。

現在取り組んでいるモデルを共有します:ColQwen3.5-v1は、Qwen3.5-4BをベースにColPaliの後期相互作用アプローチを用いて構築された45億パラメータモデルです。

現在、ViDoRe V1#1nDCG@5 0.917)を獲得しており、ViDoRe V3でも競争力があります。ハードネガティブマイニングや金融・表形式ドキュメントのドメイン特化を含む4フェーズでトレーニングを行いました。

Apache 2.0ライセンス、重みはHugging Faceにて公開中:https://huggingface.co/athrael-soju/colqwen3.5-v1 プルリクエストはhttps://github.com/illuin-tech/colpaliへのマージ申請中です。

トレーニングレシピの簡素化とさらなるドメイン対応を目指したv2を開発中で、まもなくViDoRe V3でSOTAの#1を達成することを目標としています。

ぜひ試してみたら教えてください!