広告

ローカルQwen3-VL埋め込みによるセマンティック動画検索:APIなし、文字起こしなし

Reddit r/LocalLLaMA / 2026/3/31

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Qwen3-VL-Embedding を使って、動画を文字起こしやフレームのキャプション無しで直接ベクトル化し、自然言語クエリで“セマンティック動画検索”する手法を紹介しています。
  • 8Bモデルは約18GB RAM、2Bモデルは約6GB RAMで動作し、Apple Silicon(MPS)やCUDA環境でもローカル実行して実用的な検索結果が得られたと述べています。
  • CLI ツール「SentrySearch」を作成し、ChromaDBで映像をインデックスして検索し、マッチしたクリップを自動でトリミングするワークフローを提供しています。
  • 当初はクラウドの埋め込みAPI(Gemini)をベースにしていたが、ユーザー要望によりローカルQwenバックエンドを追加したと説明しています。
Semantic video search using local Qwen3-VL embedding, no API, no transcription

Qwen3-VL-Embedding をネイティブな動画検索に使う実験をしていて、動画そのものをテキストクエリと同じベクトル空間に直接埋め込みます。文字起こしも不要、フレームのキャプションも不要、中間のテキストも不要です。自然言語で検索するだけで、動画クリップと照合されます。

意外だったのは、8Bモデルが完全ローカルで動かしても、本当に使える結果を返すことです。Apple Silicon(MPS)とCUDAでテストしました。8Bモデルは約18GBのRAMが必要で、2Bは約6GBで動きます。

この仕組みのためのCLIツールを作りました(SentrySearch)。これは映像をChromaDBにインデックスして検索し、さらに一致したクリップを自動でトリミングします。元々はGeminiの埋め込みAPIで作ったのですが、要望が多かったのでローカルのQwenバックエンドを追加しました。

他に、動画タスクでQwen3-VL-Embeddingを使っている人はいますか?クラウドの埋め込みモデルと比べたときの品質の感じ方が知りたいです。

(デモ動画を添付します。これはGeminiバックエンドで録画したものですが、ローカルバックエンドも --backend local フラグで同じように動きます)

submitted by /u/Vegetable_File758
[link] [comments]

広告
ローカルQwen3-VL埋め込みによるセマンティック動画検索:APIなし、文字起こしなし | AI Navigate