オープンソースの埋め込みモデル（テキスト＋画像＋音声）の隠れた宝石：LCO Embedding

Reddit r/LocalLLaMA / 2026/3/13

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

LCO-Embedding は、Qwen2.5 Omniを基にした7Bモデル（および3Bバリアント）を備えた、オープンソースの多モーダル埋め込みスイートです（テキスト、画像、音声）。
音声埋め込みの MAEB ベンチマークを初日でトップにし、強力なクロスモーダル性能を示しました。
LCO Embedding の論文は昨年 NeurIPS に受理されましたが、HuggingFace のリポジトリはダウンロード数が少なく、モデルをサポート・試してほしいという呼びかけが出ています。
本投稿では GGUF の量子化を共有し、llama.cpp/ollama との統合や HuggingFace コレクションへのリンクを紹介しており、実際のデプロイオプションを強調しています。

$\"オープンソースの埋め込みモデル（テキスト＋画像＋音声）の隠れた宝石：LCO$

*LCOモデルの背後チームとは関係がありません。

tl;dr: 私は個人的に LCO-Embed 7b を使用しており、すべてのファイルを含むベクタDBを作成し、画像・音声・テキストを横断して検索しています。とても感動しており、もっと多くの人がこれを知らないことに驚いています。彼らと共有するための GGUF 量子化もいくつか作成しました :)

ライセンス: Apache 2
---

皆さん、コミュニティの皆さん！埋め込みについての投稿に戻ります。約1か月前、音声埋め込みの新しいベンチマークが公開されました：「MAEB」。論文によると、他を圧倒した1モデルがありました。いくつか注意点があります。初日でベンチマークをトップにするのは、存在しないベンチマークのためにモデルを意図的に最適化できないという点で本当に印象的な偉業です。そして音声・テキスト・視覚を備えたモデルがトップになるとは予想していませんでした。

LCO Embedding の論文は昨年 NeurIPS に受理されましたが、彼らの HF リポにはほとんどダウンロード数もいいねもありません。ぜひ試してみて、HFでモデルにいいねをして彼らを応援してください！モデルは Qwen2.5 omni をベースにしており、3bサイズのバリアントもあります。

もしこれらのモデルを llama.cpp（あるいは ollama）で使いたい場合、こちらで GGUF 量子化を作成したのでチェックしてみてください :)

https://huggingface.co/collections/marksverdhei/lco-embedding-omni-gguf

投稿者 /u/k_means_clusterfuck
[リンク] [コメント]

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Gmailで返信を自動作成、「Google AI Plus」で驚異の時短術

日経XTECH

オープンソースの埋め込みモデル（テキスト＋画像＋音声）の隠れた宝石：LCO Embedding

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Gmailで返信を自動作成、「Google AI Plus」で驚異の時短術

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer