やあ、r/LocalLLaMA !
面白い新しいAIのやつを持って帰ってきました。まあ「AIハト検出&追い払うやつ」って感じです
つまり、私のバルコニーにはハトの問題があります。彼らは私の鳥用のエサ台に来て全部食べて、他のあらゆるものにベタベタとフンをします。スズメ、ツグミ、シジュウカラは歓迎です——でもハト?ダメ。
なので当然、筋の通ったこととして、大きな音で追い払うためのAIシステムを作りました。
仕組み:
2段階のハイブリッド・パイプラインです:
- YOLOv8/YOLO26 がカメラ映像を監視します(私は Android のスマホを「IP Webcam」アプリ経由で IPカメラ化して使っています)そして、フレーム内に 何らかの鳥がいるかを検出します——超高速で、CPUだと約50ms
- YOLOが鳥を見つけた場合にのみ、CLIP(ViT-B/32)が切り出し画像を分類します:ハト/ハト(タケバト)か、それとも違うか? これはCPUで約80ms、メモリは約400MBしか使いません
- それがハトなら——大きな警報音が再生されます(猛禽類の叫びがうまくいくはずですが、自分の好きな音でもOKです。→ `alarm.wav` という名前で、.pyファイルと同じフォルダに保存する必要があります)
Vision LLM の経路(LM Studio + Qwen3-VL-4B(またはあなたが使いたい任意のモデル)経由)は、やりすぎ全開にしたい場合のオプションのフォールバックとして、コード内にまだ残っています(USE_CLIP = False)。ただ正直、CLIPはこの2値タスクに対してめちゃくちゃ速いし、特にGPUなしのCPUだけの小規模デバイスでも、同じくらいうまく動くので十分です。
構成:
- YOLO26m/l(Ultralytics)で鳥を検出
- ハト分類に OpenCLIP ViT-B/32
- オプション:LM Studio 経由で Qwen3-VL-4B(OpenAI互換API)
- OpenCV + Python。Chromebook(Crostini/Linux)または他の任意のコンピュータで動作
- Androidスマホを「IP Webcam」アプリでIPカメラとして使用 → もちろん、PCに接続した他のカメラ(Webカメラなど)でも使えます
なぜ分類器をファインチューニングしないの? それも考えましたが、ここでは CLIP のゼロショットが驚くほどうまくいきます——ハトとスズメ、シジュウカラなどを正しく区別できています...
実際の出力:
SCSS[11:47:31] 1 bird(s) recognized! → Checking with CLIP... Bird #1 (YOLO: 94%) → CLIP... ️ DOVE DETECTED! (Rock Dove, HIGH, 87% confidence) [Overall dove count: 1] Saved: detections/20260330_114743_*.jpg ALERT played! ⏸️ Cooldown 30s... [11:48:21] 1 bird(s) recognized! → Checking with CLIP... Bird #1 (YOLO: 89%) → CLIP... ✅ No problem (Sparrow, LOW confidence) CPUのみで動作。GPUは不要です。最初の実行では、最初にモデルデータ約450MBを自動でダウンロードします。
GitHub: https://github.com/LH-Tech-AI/dove-detector
フィードバック歓迎です——特に、CLIPのラベルセットやしきい値の調整を改善するアイデアがある人がいたらぜひ!
Chromebookで作成。スマホをカメラとして使用。テストのために、モニター上のハトの写真を指さしてます。AIってやばい。
[link] [comments]



