LVFaceの性能はArcFace/ResNetに対してどうか

Reddit r/MachineLearning / 2026/3/29

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

この投稿は、SCRFDによる検出に加えてArcFace/ResNetの埋め込みを用いるInsightFaceスタイルの顔認識パイプラインの代替として、ByteDanceのLVFace（ICCV 2025）に関する現実世界でのベンチマークを求めている。
著者の関心は主にプロダクション上のトレードオフであり、LVFaceのViTバックボーンはr50のArcFaceよりも遅く、また高い同時実行数でのバッチ処理を行う場合にVRAM要求が増える可能性があるという点を挙げている。
重要な動機は、マスクなどの遮蔽状況下での顔の弁別性能の向上である。報告によればArcFaceは、最も有益な顔領域ではなくマスクされた領域に注目してしまい、誤解を招く埋め込みを生成する可能性がある。
さらに著者は、LVFaceが報告しているチャレンジ性能（例：Masked Face Recognition）が、誤検出（false positives）や埋め込みのドリフトに注意しつつ、百万超のIDギャラリーに対する大規模検索でのフィールド再現率（field recall）の向上につながることの根拠を求めている。

現在の顔認識スタックをLVFace（ICCV 2025のByteDance論文）に入れ替えようと考えており、実運用でのベンチマークがすでに出ているかどうか気になっています。

現在は、標準的なInsightFaceスタイルのパイプラインを動かしています。SCRFD (det_10g)で検出し、Buffalo_L (ArcFace)モデルに入力しています。これは信頼性が高く、長時間稼働の環境で高速に動かし、かつVRAM使用量が予測可能になるようチューニングしてきました。ただしLVFaceは、通常のResNet/CNNセットアップではなくVision Transformer（ViT）バックボーンを使っており、MFR-Ongoingチャレンジで1位を取ったとされています。

特に、部分的に隠れた（例：マスク着用）顔に対する、より良い顔の識別性能と再現（リコール）性能に関心があります。ArcFaceはマスクで混乱しがちで、マスク部分に対して「それはマスクだ、眼周囲領域にもっと注目して、その分を埋め込みにより強く反映しよう」と判断するのではなく、喜んでマスク部分に対する意味のない埋め込みを計算してしまいます。

LVFaceはこれを解決するとされています。小規模なテストは行いましたが、実運用で使ってみた人がいるかどうか知りたいです。試された方がいれば、次の点が気になります：

推論速度： ViTは重めです。実際にはr50のBuffaloモデルと比べてどれくらい遅いですか？
VRAM使用量： 高い同時実行数でバッチ処理しても扱える範囲ですか？
マスク/遮蔽： マスク付き顔認識チャレンジで優勝したとのことですが、あなたの現場の性能にも実際に反映されていますか？
大規模での再現率： 100万件以上のアイデンティティ・ギャラリーに対する検索で、埋め込みのドリフトや誤検出（false positive）の問題はありますか？

リンク：