AI Navigate

EdgeCrafter: タスク特化蒸留によるエッジデバイス上の密な予測のためのコンパクトViT

arXiv cs.CV / 2026/3/20

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本論文は、資源制約デバイス上で小型ViTの性能ギャップを解消するための、エッジ密な予測のための統一的なコンパクトViTフレームワークEdgeCrafterを提案する。
  • 本手法はECDetを核とする、蒸留されたコンパクトバックボーンとエッジフレンドリーなエンコーダ-デコーダ設計から構築された検出モデルであり、効率的な物体検出、インスタンスセグメンテーション、および姿勢推定を実現する。
  • COCOデータセットにおいて、ECDet-SはCOCOアノテーションのみを用い、パラメータ数が1,000万未満で51.7 APを達成する。ECInsSegはRF-DETRと同等の性能を、はるかに少ないパラメータ数で達成する;ECPose-Xは74.8 APを達成し、より限定された事前学習にもかかわらずYOLO26Pose-Xを上回る。
  • これらの結果は、タスク特化蒸留とエッジ対応設計を組み合わせたコンパクトViTが、エッジ密な予測に対して実用的かつ競争力のある選択肢となり得ることを示唆しており、コミュニティ利用のためにコードが公開されている。

要約: リソース制約のあるエッジデバイス上で高性能な密集推定モデルを展開することは、計算量とメモリの厳しい制限のため、依然として困難です。実際には、物体検出、インスタンス分割、および姿勢推定の軽量システムは依然としてYOLOなどのCNNベースのアーキテクチャに支配されており、コンパクトなVision Transformer(ViTs)は、大規模な事前学習を行っても、同様に強い精度と効率のトレードオフを達成するのに苦労することが多いです。このギャップの主な原因は、小規模なViTにおけるタスク特有の表現学習が十分でないことにあり、ViTsとエッジ密集推定との間の本質的な不一致ではないと主張します。この問題に対処するため、ECDetを中心とした蒸留済みのコンパクトバックボーンとエッジ対応のエンコーダ-デコーダ設計から構築された検出モデルに基づく、エッジ密集推定の統一的なコンパクトViTフレームワークEdgeCrafterを導入します。 COCOデータセットでは、ECDet-SはCOCOアノテーションのみを使用して、1000万未満のパラメータで51.7 APを達成します。 インスタンス分割では、ECInsSegはRF-DETRと同等の性能を、かなり少ないパラメータで達成します。 姿勢推定では、ECPose-Xは74.8 APに達し、後者のYOLO26Pose-X(71.6 AP)を大きく上回ります。後者がObjects365の大規模な事前学習に依存しているにもかかわらず。 これらの結果は、タスク特化型蒸留とエッジ対応設計と組み合わせた場合、コンパクトなViTsがエッジ密集推定において実用的で競争力のある選択肢となり得ることを示しています。 コードは以下で入手可能です: https://intellindust-ai-lab.github.io/projects/EdgeCrafter/