手話翻訳のためのポーズ推定システムの評価

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、手話翻訳（SLT）におけるポーズベース方式で用いられる複数のポーズ推定器を比較し、ポーズ推定を実装上の細部ではなく重要な実験変数として扱います。
実験では、一般的なベースライン（MediaPipe Holistic、OpenPose）に加え、より新しい全身/高能力モデル（MMPose WholeBody、OpenPifPaf、AlphaPose、SDPose、Sapiens、SMPLest-Xなど）を対象に、RWTH-PHOENIX-Weather 2014で統制したSLT学習設定を行います。
翻訳品質はBLEUとBLEURTで評価され、SDPoseとSapiensが最も良い性能（BLEU約11.5）を示し、MediaPipeのベースライン（BLEU約10）を上回ります。
Signsuisseの高解像度動画を用いた頑健性分析では、Sapiensが遮蔽（occlusion）下で最良の結果を示し（15/15で正解）、OpenPifPafはほぼ失敗します（1/15）。また手のキーポイント欠落は翻訳スコアの低下と関連します。
著者らは、再現と、ポーズベースSLTパイプラインで別のポーズ推定器を試すためのハードルを下げるコードを公開します。

日経XTECH

Reddit r/artificial

Dev.to

Reddit r/LocalLLaMA

Tech.eu