オープンソースの埋め込みモデル(テキスト+画像+音声)の隠れた宝石:LCO Embedding

Reddit r/LocalLLaMA / 2026/3/13

💬 オピニオンTools & Practical UsageModels & Research

要点

  • LCO-Embedding は、Qwen2.5 Omniを基にした7Bモデル(および3Bバリアント)を備えた、オープンソースの多モーダル埋め込みスイートです(テキスト、画像、音声)。
  • 音声埋め込みの MAEB ベンチマークを初日でトップにし、強力なクロスモーダル性能を示しました。
  • LCO Embedding の論文は昨年 NeurIPS に受理されましたが、HuggingFace のリポジトリはダウンロード数が少なく、モデルをサポート・試してほしいという呼びかけが出ています。
  • 本投稿では GGUF の量子化を共有し、llama.cpp/ollama との統合や HuggingFace コレクションへのリンクを紹介しており、実際のデプロイオプションを強調しています。
\"オープンソースの埋め込みモデル(テキスト+画像+音声)の隠れた宝石:LCO

*LCOモデルの背後チームとは関係がありません。

tl;dr: 私は個人的に LCO-Embed 7b を使用しており、すべてのファイルを含むベクタDBを作成し、画像・音声・テキストを横断して検索しています。とても感動しており、もっと多くの人がこれを知らないことに驚いています。彼らと共有するための GGUF 量子化 もいくつか作成しました :)

ライセンス: Apache 2
---

皆さん、コミュニティの皆さん!埋め込みについての投稿に戻ります。約1か月前、音声埋め込みの新しいベンチマークが公開されました:「MAEB」。論文によると、他を圧倒した1モデルがありました。いくつか注意点があります。初日でベンチマークをトップにするのは、存在しないベンチマークのためにモデルを意図的に最適化できないという点で本当に印象的な偉業です。そして音声・テキスト・視覚を備えたモデルがトップになるとは予想していませんでした。

LCO Embedding の論文は昨年 NeurIPS に受理されましたが、彼らの HF リポにはほとんどダウンロード数もいいねもありません。ぜひ試してみて、HFでモデルにいいねをして彼らを応援してください!モデルは Qwen2.5 omni をベースにしており、3bサイズのバリアントもあります。

もしこれらのモデルを llama.cpp(あるいは ollama)で使いたい場合、こちらで GGUF 量子化を作成したのでチェックしてみてください :)

https://huggingface.co/collections/marksverdhei/lco-embedding-omni-gguf

投稿者 /u/k_means_clusterfuck
[リンク] [コメント]