私のベランダに鳩の問題が…→ ChromebookでYOLO＋CLIPのAIツールを作って追い払うようにした

Reddit r/LocalLLaMA / 2026/3/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

開発者が、2段階の「ハト（または鳩）検出＆撃退」ツールを作成。高速な鳥の検出にはYOLOを、鳩か非鳩かの分類にはCLIPを、CPUのみのChromebook環境で使用する。
システムはAndroidのスマホをIPカメラとして動画取得し、検出（YOLO：約50ms）と分類（CLIP：約80ms）を実行。鳩／ハト（dove/pigeon）と判定されたときだけ大音量のアラームを鳴らす。
二値の「ハト／鳩（dove/pigeon）」タスクに対して、CLIPのゼロショット分類は十分な精度があるとして示され、独自の分類器を微調整する必要を回避している。
代替手段として「ビジョンLLM」パス（LM Studio経由でQwen3-VL-4B）もコードには残っているが、小型デバイスでの性能を考えると、CLIP方式より遅くてやりすぎ（overkill）だと説明されている。
このプロジェクトはGitHubでオープンソースとして公開されており、検出結果を保存し、繰り返し驚かせないためのクールダウン付きでアラートが発火する様子を示すサンプルログも含まれている。

やあ、r/LocalLLaMA !

面白い新しいAIのやつを持って帰ってきました。まあ「AIハト検出＆追い払うやつ」って感じです

つまり、私のバルコニーにはハトの問題があります。彼らは私の鳥用のエサ台に来て全部食べて、他のあらゆるものにベタベタとフンをします。スズメ、ツグミ、シジュウカラは歓迎です——でもハト？ダメ。

なので当然、筋の通ったこととして、大きな音で追い払うためのAIシステムを作りました。

仕組み：

2段階のハイブリッド・パイプラインです：

YOLOv8/YOLO26 がカメラ映像を監視します（私は Android のスマホを「IP Webcam」アプリ経由で IPカメラ化して使っています）そして、フレーム内に 何らかの鳥がいるかを検出します——超高速で、CPUだと約50ms
YOLOが鳥を見つけた場合にのみ、CLIP（ViT-B/32）が切り出し画像を分類します：ハト/ハト（タケバト）か、それとも違うか？これはCPUで約80ms、メモリは約400MBしか使いません
それがハトなら——大きな警報音が再生されます（猛禽類の叫びがうまくいくはずですが、自分の好きな音でもOKです。→ `alarm.wav` という名前で、.pyファイルと同じフォルダに保存する必要があります）

Vision LLM の経路（LM Studio + Qwen3-VL-4B（またはあなたが使いたい任意のモデル）経由）は、やりすぎ全開にしたい場合のオプションのフォールバックとして、コード内にまだ残っています（USE_CLIP = False）。ただ正直、CLIPはこの2値タスクに対してめちゃくちゃ速いし、特にGPUなしのCPUだけの小規模デバイスでも、同じくらいうまく動くので十分です。

構成：

YOLO26m/l（Ultralytics）で鳥を検出
ハト分類に OpenCLIP ViT-B/32
オプション：LM Studio 経由で Qwen3-VL-4B（OpenAI互換API）
OpenCV + Python。Chromebook（Crostini/Linux）または他の任意のコンピュータで動作
Androidスマホを「IP Webcam」アプリでIPカメラとして使用 → もちろん、PCに接続した他のカメラ（Webカメラなど）でも使えます

なぜ分類器をファインチューニングしないの？ それも考えましたが、ここでは CLIP のゼロショットが驚くほどうまくいきます——ハトとスズメ、シジュウカラなどを正しく区別できています...

実際の出力：

SCSS[11:47:31]  1 bird(s) recognized! → Checking with CLIP... Bird #1 (YOLO: 94%) → CLIP... ️ DOVE DETECTED! (Rock Dove, HIGH, 87% confidence) [Overall dove count: 1]  Saved: detections/20260330_114743_*.jpg  ALERT played! ⏸️ Cooldown 30s... [11:48:21]  1 bird(s) recognized! → Checking with CLIP... Bird #1 (YOLO: 89%) → CLIP... ✅ No problem (Sparrow, LOW confidence)

CPUのみで動作。GPUは不要です。最初の実行では、最初にモデルデータ約450MBを自動でダウンロードします。

GitHub： https://github.com/LH-Tech-AI/dove-detector

フィードバック歓迎です——特に、CLIPのラベルセットやしきい値の調整を改善するアイデアがある人がいたらぜひ！

Chromebookで作成。スマホをカメラとして使用。テストのために、モニター上のハトの写真を指さしてます。AIってやばい。

submitted by /u/LH-Tech_AI
[link] [comments]