ローカルの自然言語ベース動画ぼかし／匿名化ツールが4Kで76 fpsを実現

Reddit r/LocalLLaMA / 2026/4/2

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

この記事では、ローカル実行の自然言語駆動型動画匿名化ツールについてベンチマークを行い、ある構成（RF-DETR Nano Det と skip=4 設定）で4Kにて76 fpsに到達できることを報告している。
明確な速度と柔軟性のトレードオフを見出している。Grounding DINO や Florence-2 のようなテキストによるプロンプト指定型のグラウンディングモデルは約〜2 fpsで動作するが、再学習なしで「ぼかしたい対象」をユーザーが正確に記述できる。
システムは、ゼロショット検出器と追跡（ByteTrack）を組み合わせ、スキップフレーム処理によって、重い検出処理の実行頻度を減らしつつ画質を維持し、いくつかのモデルでリアルタイム性能を可能にしている。
バウンディングボックス以外にも複数の匿名化アプローチに対応している。たとえばインスタンスセグメンテーションのマスク（ピクセル精度のぼかし／ピクセル化）や、カスタマイズ可能なぼかし形状（例：ラッソ、ポリゴン、スター）など。
ツールには複数のユーザーインターフェース（FlaskのWeb UI、ブラウザベースのデモ、スタジオ／エディタ風のワークフロー）が含まれており、360°のエquirectangular動画対応といった追加機能も備えている。

単なるテキストプロンプト用のラッパーではありません。4Kの映像で、168通りの組み合わせ（7つの検出器 × 3つのトラッカー × 4つのスキップ率 × 2つの解像度）をベンチマークしました：

Model	4Kでの有効FPS	何をするか
RF-DETR Nano Det + skip=4	76 fps	顔/人物を自動検出し、4Kでリアルタイム
RF-DETR Med Seg + skip=2	9 fps	ピクセル単位のインスタンスセグメンテーションマスク
Grounding DINO	~2 fps	テキストプロンプトに基づく — ぼかしたい内容を説明
Florence-2	~2 fps	自然言語によるビジュアルグラウンディング
SAM2	varies	クリック、またはボックスを描いて、ぼかす対象を選択

テキストプロンプト型のモデル（GDINO、Florence-2）は遅い（~2 fps）ものの、その柔軟性には価値があります。何かを再学習する必要はなく、「消したいもの」をただ説明するだけで済みます。

ローカルでの仕組み：

Grounding DINOがあなたのテキストプロンプトを受け取り → 各フレームでゼロショット検出を実行 → ByteTrackが検出をフレーム間で追跡 → カスタム形状でぼかし/ピクセル化を適用
スキップフレーム追跡：Nフレームごとに検出を実行し、残りはトラッカーが補間する。skip=4なら、目に見える品質低下なしで4倍高速化
すべての重みは初回実行時に自動でダウンロードされ、全てローカルのまま
ブラウザUI（Flask）— 動画をアップロードし、プロンプトを入力して、処理結果をダウンロード

その他：

python -m privacy_blur.web_app --port 5001

完全にローカルで動作します。リポジトリには、同じ4Kフレームで各モデルのアプローチを並べて比較したGIFがあります。

匿名化で、人々はどんなテキストプロンプトを使いたいのかが気になります。Grounding DINOの統合なら、説明できるものなら基本的に何でも検出できます。

とはいえユーザーの好みはそれぞれ違うので、どんなユースケースが最も有効になりそうか、またPhotopeaのような形でWebサイトをホストしたら需要はあるのか、という点ですね？

AI Business

AI Business

AI-SCHOLAR

日経XTECH

ChinaTalk