手話翻訳のためのポーズ推定システムの評価
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、手話翻訳(SLT)におけるポーズベース方式で用いられる複数のポーズ推定器を比較し、ポーズ推定を実装上の細部ではなく重要な実験変数として扱います。
- 実験では、一般的なベースライン(MediaPipe Holistic、OpenPose)に加え、より新しい全身/高能力モデル(MMPose WholeBody、OpenPifPaf、AlphaPose、SDPose、Sapiens、SMPLest-Xなど)を対象に、RWTH-PHOENIX-Weather 2014で統制したSLT学習設定を行います。
- 翻訳品質はBLEUとBLEURTで評価され、SDPoseとSapiensが最も良い性能(BLEU約11.5)を示し、MediaPipeのベースライン(BLEU約10)を上回ります。
- Signsuisseの高解像度動画を用いた頑健性分析では、Sapiensが遮蔽(occlusion)下で最良の結果を示し(15/15で正解)、OpenPifPafはほぼ失敗します(1/15)。また手のキーポイント欠落は翻訳スコアの低下と関連します。
- 著者らは、再現と、ポーズベースSLTパイプラインで別のポーズ推定器を試すためのハードルを下げるコードを公開します。



