最近、AIの動画生成がテキストに比べてどれほど高価なのかについて、かなり多くの議論がされています。そしてこれは単なる最適化の問題以上のもののように感じます。
テキストモデルは、意味をトークンに圧縮できるのでうまく機能します。動画には、現時点ではそれに相当する抽象化がまだあまりありません。現在のアプローチでは、多くのフレームにまたがる高次元データを扱う必要がある一方で、対象物や動きを時間を通じて一貫させ続ける必要もあります。
そのため、問題の本質的な重さが大きくなります。次のトークンを予測するのではなく、連続した世界のように振る舞う何かを生成しようとしているのです。追跡し、維持しなければならない情報量は、はるかに大きくなります。
これはコストに直結します。サンプルあたりの計算量の増加、推論経路の長さ、そしてより厳しい一貫性要件が、すぐに積み重なります。モデルが改善しても、この根本的な構造は簡単には変わりません。
また、出力品質を押し上げるだけでなく、効率性や表現に焦点が当たりつつある理由も説明できます。制限は、モデルが生成できるかどうかだけではありません。規模に応じて、それを持続可能に実行できるかどうかが問題なのです。
この時点では、有意義なコスト削減には、既存アプローチへの段階的な改善だけでなく、動画を別の方法で表現する必要がある可能性が高いように思えます。
私は、この問題の定式化のされ方が、モデルの性能がまだ初期段階であるというよりも、依然として初期段階にあるのではないかと考え始めています。
[link] [comments]




