要旨: 本稿では、動画から単一粒子を追跡するための動画ベースの枠組みであるPhysics-Informed Tracking(PIT)を提案する。ニューラルネットワークのオートエンコーダが粒子をヒートマップのピーク(ランドマーク)として自動的に局在化し、オートエンコーダに埋め込まれた微分可能な物理モジュールが、既知の力学に従うように複数のランドマークを時間的に拘束する(軌跡)。新規のPhysics-Informed Landmark Loss(PILL)は、この予測された軌跡をランドマークに照合することで、ラベルなしで物理的整合性を強制する。その教師あり変種(PILLS)では、予測をシミュレーションから得られる正解の位置、速度、跳ね返りと比較し、エンドツーエンドのバックプロパゲーションを可能にする。教師ありおよび教師なし学習を支えるために、A)ランドマークのヒートマップによる追跡関連の構造と、B)背景ノイズおよびその後の画像再構成とを分離する分割ボトルネックを備えたオートエンコーダを用いる。評価として、再現された26要因のデザイン(n = 4レプリケート、64設定)を行い、その結果、PILLSはクリーンな条件とノイズのある条件の両方で、双線形および物理で洗練されたデコーダ出力に対して、一貫してサブピクセル追跡精度を達成することを示す。
物理インフォームド・トラッキング(PIT)
arXiv cs.CV / 2026/4/21
📰 ニュースModels & Research
要点
- 本論文は、物理ベースの制約を組み合わせた動画ベースの単一粒子トラッキング手法「Physics-Informed Tracking(PIT)」を提案している。
- オートエンコーダは粒子のヒートマップピーク(ランドマーク)を推定し、微分可能な物理モジュールが時間に沿ったランドマークの軌跡に物理整合性を課す。
- Physics-Informed Landmark Loss(PILL)により、ラベルなしで予測軌跡をランドマークへ照合し、物理的な一貫性を学習できる。
- 教師あり版のPhysics-Informed Landmark Losses with Simulation Supervision(PILLS)では、シミュレーション由来の位置・速度・バウンスの正解でエンドツーエンド学習する。
- 26因子計画を複製した大規模実験により、PILLSがクリーン環境でもノイズ環境でもサブピクセル精度を達成することが示されている。
関連記事

Agent Package Manager(APM):再現可能なAIエージェントのためのDevOpsガイド
Dev.to
実開発でClaude、GPT-4o、Geminiをベンチマークして学んだ3つのこと
Dev.to
ARPAのSkillware & Rooms(AI/ML/Python)でオープンソースの貢献者を募集
Dev.to
本番のLLMがツールのスキーマ制約を体系的に破ってUI機能を“発明”してしまう—約2,400メッセージで観測[D]
Reddit r/MachineLearning
AIシステムが回答途中でランダムにフランス語へ切り替わってしまう問題—原因が分かるまで時間がかかった
Reddit r/artificial