| 単なるテキストプロンプト用のラッパーではありません。4Kの映像で、168通りの組み合わせ(7つの検出器 × 3つのトラッカー × 4つのスキップ率 × 2つの解像度)をベンチマークしました:
テキストプロンプト型のモデル(GDINO、Florence-2)は遅い(~2 fps)ものの、その柔軟性には価値があります。何かを再学習する必要はなく、「消したいもの」をただ説明するだけで済みます。 ローカルでの仕組み:
その他:
完全にローカルで動作します。リポジトリには、同じ4Kフレームで各モデルのアプローチを並べて比較したGIFがあります。 匿名化で、人々はどんなテキストプロンプトを使いたいのかが気になります。Grounding DINOの統合なら、説明できるものなら基本的に何でも検出できます。 とはいえユーザーの好みはそれぞれ違うので、どんなユースケースが最も有効になりそうか、またPhotopeaのような形でWebサイトをホストしたら需要はあるのか、という点ですね? [link] [comments] |
ローカルの自然言語ベース動画ぼかし/匿名化ツールが4Kで76 fpsを実現
Reddit r/LocalLLaMA / 2026/4/2
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- この記事では、ローカル実行の自然言語駆動型動画匿名化ツールについてベンチマークを行い、ある構成(RF-DETR Nano Det と skip=4 設定)で4Kにて76 fpsに到達できることを報告している。
- 明確な速度と柔軟性のトレードオフを見出している。Grounding DINO や Florence-2 のようなテキストによるプロンプト指定型のグラウンディングモデルは約〜2 fpsで動作するが、再学習なしで「ぼかしたい対象」をユーザーが正確に記述できる。
- システムは、ゼロショット検出器と追跡(ByteTrack)を組み合わせ、スキップフレーム処理によって、重い検出処理の実行頻度を減らしつつ画質を維持し、いくつかのモデルでリアルタイム性能を可能にしている。
- バウンディングボックス以外にも複数の匿名化アプローチに対応している。たとえばインスタンスセグメンテーションのマスク(ピクセル精度のぼかし/ピクセル化)や、カスタマイズ可能なぼかし形状(例:ラッソ、ポリゴン、スター)など。
- ツールには複数のユーザーインターフェース(FlaskのWeb UI、ブラウザベースのデモ、スタジオ/エディタ風のワークフロー)が含まれており、360°のエquirectangular動画対応といった追加機能も備えている。




