TT4D：単眼（モノクロ）動画からの卓球4D再構成のためのパイプラインとデータセット

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、単眼の放送映像から再構成した卓球のシングルス／ダブルスを140時間超収録する、大規模で高精度なデータセットTT4Dを提案しています。
TT4Dには、高品質なカメラキャリブレーション、正確な3Dボール位置、ボールのスピン、時間セグメンテーション、時間変化する3D人体メッシュなどのマルチモーダル注釈が含まれます。
著者らは、時間セグメンテーションを行う前に、学習したネットワークで未セグメントの2Dボール軌跡を3Dへ持ち上げる「lift-first」型の再構成パイプラインを提案しています。
これにより、遮蔽やカメラ視点の変化によって2Dベースの時間セグメンテーションが破綻する問題を回避し、重い遮蔽下でも信頼できる再構成を可能にします。
データセットの有効性は、インパクト時のラケットの姿勢・速度推定や、競技ラリーの生成モデル学習などの下流タスクで検証されています。

概要: 私たちは、大規模で高精細な卓球データセットであるTT4Dを提案します。これは、単眼の放送映像から復元したシングルスおよびダブルスのゲームプレイを $140+$ 時間分提供します。高品質なカメラキャリブレーション、正確な3Dボール位置、ボールスピン、時間セグメンテーション、時間に沿った3D人体メッシュといったマルチモーダルな注釈を備えています。この豊富なデータは、バーチャルリプレイ、選手の詳細分析、ロボット学習の新たな基盤を提供します。データセットが持つ「規模」と「精度」の両立は、新しい復元パイプラインによって実現されています。従来手法では、まず2Dのボール軌跡に基づいてゲームのシーケンスを個々のショット区間に分割し、その後に復元を試みます。しかし、2Dベースの時間セグメンテーションは、遮蔽や多様なカメラ視点のもとで崩れてしまい、信頼できる復元ができません。私たちはこのパラダイムを反転し、学習されたリフティングネットワークによって、最初に未セグメントの2Dボール軌跡全体を3Dへ持ち上げます。この3D軌跡により、時間セグメンテーションを確実に実行できます。学習されたリフティングネットワークは、ボールのスピンも推定し、不確実なボール検出を扱い、高い遮蔽がある場合でもボール軌跡をうまく復元します。一般視点の放送用単眼映像から卓球のゲームプレイを復元できるのは、私たちのパイプラインだけであるため、この「最初に持ち上げる」設計が必要です。私たちは、下流の2つのタスクによってデータセットの忠実性を示します。すなわち、インパクト時におけるラケットの姿勢と速度の推定、および競技的なラリーの生成モデルの学習です。