[P] ノイズのある動画の人数カウントからオンラインで群衆密度を予測する最適なアプローチ（学習データなし）

Reddit r/MachineLearning / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage

共有:

要点

著者は、P2PNetから得られる安定しているがノイズのある頭数（±10%）を用いて、ゾーンごとに5〜10フレーム先をリアルタイムかつCPUに負荷の小さい形で群衆密度を予測する必要があり、さらに重要な閾値に到達するまでの時間（time-to-reach）も推定したい。
現在の手法（EMAで平滑化したガウス重み付きの線形外挿）では、55フレームにわたってMAEが約20、方向（増減）の精度は約49%にとどまっており、特に反転（reversal）イベントで精度が悪い。
過去の学習データがないため、モデルの学習を行わずにオンラインで機能するアプローチを探している。
彼らは、カルマンフィルタリング、二重指数平滑化、その他の手法など、振幅（大きさ）と方向の予測の両方を改善できる代替のフィルタリング／平滑化技法について尋ねている。
議論は、ノイズのある観測、学習データなし、短い予測ホライズン、CPU／実行時間の制約といった条件のもとでの、応用ML／時系列予測の問題として位置づけられている。

混雑動画クリップ上で P2PNet を動かして得た、フレームごとの頭数（head counts）があります。頭数は安定していますがノイジーです（±10%）。ゾーンごとに 5〜10 フレーム先の密度を予測し、臨界しきい値に達するまでの時間も推定したいです。

現在は、EMA で平滑化したガウス重み付きの線形外挿を使用しています。55 フレームに対する MAE は約 20 です。方向精度は 49%（反転（reversals）ではほぼコイントス）です。

過去の学習データはありません。CPU 上でオンライン／リアルタイムに動作させる必要があります。

何を試しますか？カルマンフィルタでしょうか？二重指数平滑化？それとも別の方法でしょうか？

日経XTECH

Reddit r/artificial

Dev.to

Qiita

Dev.to