Sapiens2

arXiv cs.CV / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

Sapiens2は、人間中心のビジョン向けに高解像度トランスフォーマーで汎化性能と高忠実度の出力を目指した新しいモデル群であり、多様な下流タスクに対応することを目的としています。
モデル規模は0.4B〜5Bパラメータで、ネイティブ1K解像度に対応しつつ、ウィンドウド・アテンションと2K出力解像度の事前学習により4K対応の階層型バリアントも提供します。
学習面では、マスク画像再構成と自己蒸留型コントラスト目的を組み合わせた統一的な事前学習方針を採用し、幅広いタスクでより適した学習であると報告されています。
事前学習データとして、質の高い人間画像1B枚のキュレーション済みデータとタスク注釈の品質・量の改善を用い、さらに安定性を高めて長い学習スケジュールを可能にするアーキテクチャ上の工夫も加えています。
ベンチマークでは新しい最先端（SOTA）を主張し、従来世代からの向上としてポーズ（+4 mAP）、ボディパーツセグメンテーション（+24.3 mIoU）、法線推定（角度誤差-45.6%）などを報告し、pointmapやalbedo推定といった新タスクにも拡張されています。

Dev.to

Dev.to

Reddit r/LocalLLaMA

Dev.to

Reddit r/LocalLLaMA