SignDATA:手話翻訳のためのデータパイプライン

arXiv cs.CL / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • SignDATAは、注釈スキーマ、クリップのタイミング、フレーミング、プライバシー制約などが異なる手話データセットの前処理を一貫して行う難しさに対処します。
  • この設定駆動のツールキットは、ポーズベースと動画ベースの2つのエンドツーエンド手順を提供し、学習に適したポーズ成果物または話者切り抜き動画パッケージへと変換します。
  • MediaPipeとMMPoseのバックエンドを、共通インターフェースと型付きジョブスキーマ、実験単位の上書き、段階ごとのチェックポイント化によって差し替え可能にしています。
  • 研究の再現性を重視し、正規化方針やプライバシー上のトレードオフを明示的に制御できる点を、バックエンド比較や前処理のアブレーション実験で検証します。
  • 著者はコードを公開し、手話研究における前処理の断片化を減らし、研究間で経験的に比較しやすくすることを目指しています。

Abstract

手話データセットは、注釈スキーマ、クリップのタイミング、話者のフレーミング、プライバシー制約が異なるため、前処理を一貫して行うことが困難です。既存の研究は通常、下流モデルを報告しますが、生の動画を学習可能なポーズまたは動画の成果物へ変換する前処理パイプラインは、断片的であり、バックエンド固有で、ドキュメントも弱いままです。私たちは、学習のために異種の手話言語コーパスを比較可能な出力へと標準化する、設定(config)駆動の前処理ツールキットSignDATAを提示します。本システムは2つのエンドツーエンドのレシピをサポートします。1つは、取得(acquisition)、マニフェスト化(manifesting)、人物のローカライズ、クリッピング、クロッピング、ランドマーク抽出、正規化、そしてWebDatasetへのエクスポートを行うポーズレシピです。もう1つは、ポーズ抽出を話者切り出し動画のパッケージングに置き換える動画レシピです。SignDATAは、共通のインターフェース、型付きジョブスキーマ、実験レベルの上書き(overrides)、および構成(config)とマニフェストを意識したハッシュによる段階ごとのチェックポイントを通じて、メディアパイプ(MediaPipe)とMMPoseのバックエンドを相互に入れ替え可能な形で公開します。私たちは、バックエンドの比較、前処理のアブレーション、そしてデータセット上でのプライバシーを意識した動画生成を中心とした、研究志向の評価設計によってツールキットを検証します。私たちの貢献は、抽出器の選択、正規化方針、プライバシーのトレードオフを明示し、設定可能で、実験的に比較可能にする、手話言語研究のための再現可能な前処理レイヤです。コードは https://github.com/balaboom123/signdata-slt で利用可能です。