技術的な観点から質問します。というのも、現時点でこの分野をカバーするにあたって、その用語がかなりの仕事を担っているように感じるからです。真にリアルタイムなビデオ推論、つまりモデルがライブ入力ストリームに応じてフレームを連続的に生成または変換することは、高速なビデオ生成とは根本的に異なる問題です。アーキテクチャが違う、レイテンシ要件が違う、あらゆる面で違います。
しかし、ほとんどの報道や、ほとんどのベンダーのポジショニングでは、それらがまとめて「ライブ」または「リアルタイム」のもとに置かれてしまっています。そして、その分野が共有された定義に収束しているのかどうかは分かりません。
ここでのタクソノミー(分類体系)を、もっと整理して考える方法はありますか?また、人々はどの組織が実際に、より難しいバージョンの問題に取り組んでいると思っていますか?
[link] [comments]




