CPUBone：低い並列化能力を持つデバイス向けの効率的なビジョンバックボーン設計

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ビジョンバックボーンの効率化に関する研究の多くが高並列なハードウェアを対象としている一方で、CPUベースの推論には低遅延を維持するために秒あたりの高いMAC数（MACpS）を重視した別の設計アプローチが必要だと主張する。
標準的な畳み込みに対する2つの修正—グループ畳み込みとより小さなカーネルサイズ—を評価し、総MAC数を大幅に削減しつつ、ハードウェア効率の維持を狙う。
複数のCPUデバイスでの実験を通じて、これらの畳み込みの変更は計算コストを下げても高いハードウェア効率を保てることを著者らは示している。
CPU最適化された新しいビジョンバックボーンのファミリであるCPUBoneを提案し、さまざまなCPUハードウェアにわたって強力な速度–精度のトレードオフを達成する。
CPUBoneの効率は、物体検出やセマンティックセグメンテーションといった下流タスクにも引き継がれることが報告されており、モデル／コードはGitHubで公開されている。

Abstract

画像のバックボーン・アーキテクチャに関する近年の研究は、主として、高い並列処理能力を備えたハードウェア基盤のために効率を最適化することに重点を置いてきました。このカテゴリには、モバイル端末や組み込みAIアクセラレータ・モジュールのような組み込みシステムがますます含まれるようになっています。これとは対照的に、CPUは同様の方法で演算を並列化する可能性がありません。そのため、モデルは、高いMAC毎秒（MACpS）を実現することで、演算量（MACs）とハードウェア効率のよい実行とのバランスを取る、特定の設計思想から利益を得ます。そこで本研究では、計算コストを削減することを目的として、標準的な畳み込みに対する2つの変更を調査します。具体的には、グループ畳み込みと、カーネルサイズの縮小です。これらはいずれも推論に必要な総MAC数を大幅に減らしますが、低遅延を維持するにはハードウェア効率を保つことが不可欠です。多様なCPUデバイスに対する実験により、これらの適応がCPU上でも高いハードウェア効率を確実に維持できることを確認しました。これらの知見に基づき、CPUベースの推論向けに最適化された新しい視覚用バックボーン・モデル群であるCPUBoneを提案します。CPUBoneは、幅広いCPUデバイスにわたって最先端の速度—精度トレードオフ（SATs）を達成し、物体検出や意味セグメンテーションといった下流タスクへその効率を効果的に移植します。モデルとコードは https://github.com/altair199797/CPUBone で利用可能です。