AI Navigate

インサイト最新記事一覧 AI大全

広告

ローカルQwen3-VL埋め込みによるセマンティック動画検索：APIなし、文字起こしなし

Reddit r/LocalLLaMA / 2026/3/31

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

Qwen3-VL-Embedding を使って、動画を文字起こしやフレームのキャプション無しで直接ベクトル化し、自然言語クエリで“セマンティック動画検索”する手法を紹介しています。
8Bモデルは約18GB RAM、2Bモデルは約6GB RAMで動作し、Apple Silicon（MPS）やCUDA環境でもローカル実行して実用的な検索結果が得られたと述べています。
CLI ツール「SentrySearch」を作成し、ChromaDBで映像をインデックスして検索し、マッチしたクリップを自動でトリミングするワークフローを提供しています。
当初はクラウドの埋め込みAPI（Gemini）をベースにしていたが、ユーザー要望によりローカルQwenバックエンドを追加したと説明しています。

Semantic video search using local Qwen3-VL embedding, no API, no transcription

Qwen3-VL-Embedding をネイティブな動画検索に使う実験をしていて、動画そのものをテキストクエリと同じベクトル空間に直接埋め込みます。文字起こしも不要、フレームのキャプションも不要、中間のテキストも不要です。自然言語で検索するだけで、動画クリップと照合されます。

意外だったのは、8Bモデルが完全ローカルで動かしても、本当に使える結果を返すことです。Apple Silicon（MPS）とCUDAでテストしました。8Bモデルは約18GBのRAMが必要で、2Bは約6GBで動きます。

この仕組みのためのCLIツールを作りました（SentrySearch）。これは映像をChromaDBにインデックスして検索し、さらに一致したクリップを自動でトリミングします。元々はGeminiの埋め込みAPIで作ったのですが、要望が多かったのでローカルのQwenバックエンドを追加しました。

他に、動画タスクでQwen3-VL-Embeddingを使っている人はいますか？クラウドの埋め込みモデルと比べたときの品質の感じ方が知りたいです。

（デモ動画を添付します。これはGeminiバックエンドで録画したものですが、ローカルバックエンドも --backend local フラグで同じように動きます）

submitted by /u/Vegetable_File758
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/31Dailyインサイトを見る →

関連記事

Black Hat Asia

Black Hat Asia

AI Business

米国のデータセンター投資、オフィス超えへ AI急成長で建築の主役交代

米国のデータセンター投資、オフィス超えへ AI急成長で建築の主役交代

日経XTECH

AIリテラシーをどう教えるか、自分事として考える知識創造理論の内面化

AIリテラシーをどう教えるか、自分事として考える知識創造理論の内面化

日経XTECH

ナトリウムイオン電池、中国圧倒も「日本に勝機ある」／ニコンやキヤノン抜き去ったASML、AI半導体時代の水平分業先取り

ナトリウムイオン電池、中国圧倒も「日本に勝機ある」／ニコンやキヤノン抜き去ったASML、AI半導体時代の水平分業先取り

日経XTECH

AIはツールから「同僚」へ、メルカリは複数エージェントが意思疎通

AIはツールから「同僚」へ、メルカリは複数エージェントが意思疎通

日経XTECH

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告

ローカルQwen3-VL埋め込みによるセマンティック動画検索：APIなし、文字起こしなし | AI Navigate