広告

ローカルの自然言語ベース動画ぼかし/匿名化ツールが4Kで76 fpsを実現

Reddit r/LocalLLaMA / 2026/4/2

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この記事では、ローカル実行の自然言語駆動型動画匿名化ツールについてベンチマークを行い、ある構成(RF-DETR Nano Det と skip=4 設定)で4Kにて76 fpsに到達できることを報告している。
  • 明確な速度と柔軟性のトレードオフを見出している。Grounding DINO や Florence-2 のようなテキストによるプロンプト指定型のグラウンディングモデルは約〜2 fpsで動作するが、再学習なしで「ぼかしたい対象」をユーザーが正確に記述できる。
  • システムは、ゼロショット検出器と追跡(ByteTrack)を組み合わせ、スキップフレーム処理によって、重い検出処理の実行頻度を減らしつつ画質を維持し、いくつかのモデルでリアルタイム性能を可能にしている。
  • バウンディングボックス以外にも複数の匿名化アプローチに対応している。たとえばインスタンスセグメンテーションのマスク(ピクセル精度のぼかし/ピクセル化)や、カスタマイズ可能なぼかし形状(例:ラッソ、ポリゴン、スター)など。
  • ツールには複数のユーザーインターフェース(FlaskのWeb UI、ブラウザベースのデモ、スタジオ/エディタ風のワークフロー)が含まれており、360°のエquirectangular動画対応といった追加機能も備えている。
ローカル自然言語ベースの動画ぼかし/匿名化ツールは4Kで76 fps

単なるテキストプロンプト用のラッパーではありません。4Kの映像で、168通りの組み合わせ(7つの検出器 × 3つのトラッカー × 4つのスキップ率 × 2つの解像度)をベンチマークしました:

Model 4Kでの有効FPS 何をするか
RF-DETR Nano Det + skip=4 76 fps 顔/人物を自動検出し、4Kでリアルタイム
RF-DETR Med Seg + skip=2 9 fps ピクセル単位のインスタンスセグメンテーションマスク
Grounding DINO ~2 fps テキストプロンプトに基づく — ぼかしたい内容を説明
Florence-2 ~2 fps 自然言語によるビジュアルグラウンディング
SAM2 varies クリック、またはボックスを描いて、ぼかす対象を選択

テキストプロンプト型のモデル(GDINO、Florence-2)は遅い(~2 fps)ものの、その柔軟性には価値があります。何かを再学習する必要はなく、「消したいもの」をただ説明するだけで済みます。

ローカルでの仕組み:

  • Grounding DINOがあなたのテキストプロンプトを受け取り → 各フレームでゼロショット検出を実行 → ByteTrackが検出をフレーム間で追跡 → カスタム形状でぼかし/ピクセル化を適用
  • スキップフレーム追跡:Nフレームごとに検出を実行し、残りはトラッカーが補間する。skip=4なら、目に見える品質低下なしで4倍高速化
  • すべての重みは初回実行時に自動でダウンロードされ、全てローカルのまま
  • ブラウザUI(Flask)— 動画をアップロードし、プロンプトを入力して、処理結果をダウンロード

その他:

  • 合計8つの検出モデル(RF-DETR、YOLO、Grounding DINO、Florence-2、SAM2、MediaPipe、Cascade)
  • 360°の等距円筒動画に対応(Insta360 X5 / GoPro Maxで最大8K)
  • カスタムぼかし形状 — 検出したバウンディングボックス上にラッソ、ポリゴン、星、円を描画
  • ピクセル精度のマスクのためのインスタンスセグメンテーション。バウンディングボックスだけではない
  • 3つのインターフェース:フルのスタジオエディタ、シンプルなアップロード&処理、リアルタイムMJPEGストリーミングデモ

python -m privacy_blur.web_app --port 5001 

完全にローカルで動作します。リポジトリには、同じ4Kフレームで各モデルのアプローチを並べて比較したGIFがあります。

Githubリンク

匿名化で、人々はどんなテキストプロンプトを使いたいのかが気になります。Grounding DINOの統合なら、説明できるものなら基本的に何でも検出できます。

とはいえユーザーの好みはそれぞれ違うので、どんなユースケースが最も有効になりそうか、またPhotopeaのような形でWebサイトをホストしたら需要はあるのか、という点ですね?

提供者: /u/Honest-Debate-6863
[link] [comments]

広告