現在の顔認識スタックをLVFace(ICCV 2025のByteDance論文)に入れ替えようと考えており、実運用でのベンチマークがすでに出ているかどうか気になっています。
現在は、標準的なInsightFaceスタイルのパイプラインを動かしています。SCRFD (det_10g)で検出し、Buffalo_L (ArcFace)モデルに入力しています。これは信頼性が高く、長時間稼働の環境で高速に動かし、かつVRAM使用量が予測可能になるようチューニングしてきました。ただしLVFaceは、通常のResNet/CNNセットアップではなくVision Transformer(ViT)バックボーンを使っており、MFR-Ongoingチャレンジで1位を取ったとされています。
特に、部分的に隠れた(例:マスク着用)顔に対する、より良い顔の識別性能と再現(リコール)性能に関心があります。ArcFaceはマスクで混乱しがちで、マスク部分に対して「それはマスクだ、眼周囲領域にもっと注目して、その分を埋め込みにより強く反映しよう」と判断するのではなく、喜んでマスク部分に対する意味のない埋め込みを計算してしまいます。
LVFaceはこれを解決するとされています。小規模なテストは行いましたが、実運用で使ってみた人がいるかどうか知りたいです。試された方がいれば、次の点が気になります:
- 推論速度: ViTは重めです。実際にはr50のBuffaloモデルと比べてどれくらい遅いですか?
- VRAM使用量: 高い同時実行数でバッチ処理しても扱える範囲ですか?
- マスク/遮蔽: マスク付き顔認識チャレンジで優勝したとのことですが、あなたの現場の性能にも実際に反映されていますか?
- 大規模での再現率: 100万件以上のアイデンティティ・ギャラリーに対する検索で、埋め込みのドリフトや誤検出(false positive)の問題はありますか?
リンク:
精度向上が、追加の計算オーバーヘッドに見合うかどうかを判断しようとしています(ここではローカルで推論をすべて行っています)。何か洞察があれば嬉しいです!
[ u/mrdividendsniffer さんに、LVFaceについて何かフィードバックがあればとのことでタグ付けするつもりです ]
[link] [comments]



