アブストラクト: オブジェクト検出アーキテクチャの急速な発展により、単段(single stage)検出器がリアルタイムな視覚認識における支配的な解決策として位置付けられている。これらのモデルにおける計算オーバーヘッドの主な原因は、深いバックボーン段階にある。すなわち、高ストライド領域におけるC2fボトルネックモジュールが、チャネル幅に対する二次スケーリングのために、パラメータの大半を不釣り合いに蓄積してしまう。本研究では、QYOLOを提案する。QYOLOは量子に着想を得たチャネルミキシングの枠組みであり、最も深いバックボーンにある2つのC2fモジュール(P4/16:512チャネル、P5/32:1024チャネル)を、コンパクトなQMixBlockに置き換えることで、真の意味でのアーキテクチャ圧縮を実現する。提案ブロックは、2つのバックボーン段階の双方で共有される学習可能パラメータを用いた正弦波(sinusoidal)によるミキシング機構により、グローバルなチャネル再較正(recalibration)を行う。これにより、独立した段階ごとのパラメータ集合を必要とせずに、チャネルの重要度を一貫して強制する。ネックおよび検出ヘッドは、完全に古典的な構成のままで変更せずに維持する。VisDrone2019ベンチマークでの評価では、QYOLOv8nがパラメータ数を20.2%削減(3.01Mから2.40M)し、mAP@50の低下はわずか0.4 ppに抑えつつGFLOPsを12.3%削減できることが示された。QYOLOv8sは、21.8%の削減で低下は0.1 ppである。知識蒸留と組み合わせることで、圧縮に対する追加コストなしに、完全な精度の同等性が回復される。バックボーンを拡張しネックも追加した派生では、精度低下はより大きくなるものの、38〜41%の削減が達成され、バックボーンのみの最終設計が動機付けられた。
QYOLO:量子インスパイアードな共有チャネル混合による軽量物体検出
arXiv cs.AI / 2026/4/30
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、YOLO系のバックボーンにおいて最深部の2つのC2fモジュールを量子インスパイアードなチャネル混合ブロック(QMixBlock)に置き換えることで軽量化する「QYOLO」を提案する。
- QMixBlockは正弦波ベースのグローバルなチャネル再調整を行い、P4/16とP5/32の両バックボーン段で学習可能パラメータを共有することで、段ごとの個別パラメータセットを不要にして削減を実現する。
- ネックと検出ヘッドは従来どおり完全にクラシカルなままで、計算削減は主にチャンネル幅に伴うオーバーヘッドが大きいバックボーン部分に集中している。
- VisDrone2019での評価では、QYOLOv8nがパラメータを20.2%削減(3.01M→2.40M)しGFLOPsを12.3%削減しつつ、mAP@50は0.4 ppの低下にとどまることが示され、QYOLOv8sでも21.8%削減で0.1 ppの劣化のみであった。
- さらに知識蒸留を組み合わせると、圧縮によるコストを増やさずに精度を完全に回復できる一方、バックボーン+ネック拡張版ではより大きい圧縮(38〜41%)を達成するが精度低下が増え、バックボーンのみの設計が最終案として選ばれている。



