Netflix - はいNetflix - ビデオエディターでAIバンドワゴンに乗る

The Register / 2026/4/4

📰 ニュースTools & Practical UsageIndustry & Market MovesModels & Research

要点

  • Netflixは、「ビデオ・ラングエージ・モデル」に基づくAIビデオエディターを展開しており、要素を削除したときに編集済みシーンやオブジェクト同士の相互作用の扱いを変える。
  • このモデルのアプローチは、シーンの理解とオブジェクトの相互作用ダイナミクスを改訂して、編集時により首尾一貫した結果を生成することに重点を置いている。
  • 今回の更新は、Netflixが生成AIを動画制作およびポストプロダクションのワークフローに統合するというより大きな動きの一環であることを示している。
  • 開発の背景には、コンテンツの分析や生成だけでなく、実用的なメディア編集タスクに対してマルチモーダルAI(動画+言語)を適用することをめぐる競争が高まっていることが表れている。

Netflix - はいNetflix - 動画編集でAIの波に乗る

動画言語モデルが、シーンから何かが取り除かれたときの「物同士の相互作用」を作り直す

2026年4月3日(金)  // 20:42 UTC

新しいNetflixモデルは、私たちが映画を作る方法を書き換えることを約束します。想像してみてください。大金を投じた大作『カークラッシュIII:突然の致命的インパクト』の監督として、あなたは今、主人公のクルーズ・コントロールが迫るセミトラックに真正面から突っ込んでいく“結末”の撮影を終えたばかりです。

衝突は壮観です。遠隔操作で運転しているクルーズの車は、衝突の瞬間に爆発し、がれきを高速道路にまき散らします。最高です。あなたは、彼の儲かるフランチャイズ俳優としてのキャリアが幕を閉じるのを見届けながら、カメラモニター用の待機場所でぶすっとしつつあるクルーズにハイタッチし、そのままクラフトサービスのトラックへ向かいます。

プロデューサーのマヤ・キャッシュが、あなたの肩をつかみます。「これ、聞きたくないと思うかもしれないわ」と彼女は言います。「でももし、クルーズがそのまま夕日に向かって走り去ったら? そして結局、彼が死ななかったら?」

あなたはバレンシアガのサングラスの縁越しに彼女を見つめて、言います。「結局、4作目の資金は出るってこと?」

Netflixの VOIDモデル は、まさにその瞬間のために作られました。シーンを撮り直すとか、コンピュータグラフィックスでまるごと作り直すのではなく、クラッシュの映像を“オープンロードの結末”へと変換できるのです。

VOIDは Video Object and Interaction Deletion の略です。これはVLM(視覚言語モデル)で、シーンからオブジェクトを消せるだけでなく、削除されたものの影響を受けずに、残ったオブジェクトがどのように振る舞うべきかをインペイント(補完)することもできます。

たとえば、2台の車の正面衝突を、1台を取り除き、残った車両の物理的にもっともらしい経路を描いた動画を生成することで、道路を走る1台の車の場面に変換できます。衝突後の破片、煙、炎――それらはすべて消され、手つかずの舗装に置き換えられます。

動画モデルの制作者であるサマン・モタメド(Netflix/ソフィア大学)、ウィリアム・ハーヴェイ(Netflix)、ベンジャミン・クライン(Netflix)、ルック・ファン・グール(ソフィア大学)、ジュオニン・ユアン(Netflix)、タイエン・チェン(Netflix)は、VOIDをプレプリント論文 [PDF] において「これらの複雑な状況で、物理的に筋の通ったインペインティングを行うことを目的としたビデオ・オブジェクト除去フレームワーク」と説明しています。

VOIDは、オブジェクトを取り除くだけでなく、取り除かれたオブジェクトが存在しない場合に残りのオブジェクトがどう振る舞うかをモデル化します。つまり、人がプールに飛び込み、地面に水しぶきを上げるようなシーンがあるとすれば、VOIDはその人物を取り除き、プールには水しぶきが出ず、地面にも飛び散りがない、まるでプールが乱れていないように見える動画を生成できる可能性があります。

VOIDはNetflixの制作物に限られません。同社は自社のモデルをHugging Faceで利用可能にしており、誰でもインストールできます。

動画を改変するための他のツールもあります。たとえばRunwayGenerative OmnimatteDiffuEraserROSEMiniMax-RemoverProPainterなどです。しかしNetflixの開発者たちは、VOIDがこれらの代替案を大幅に上回ると主張しています。複数のシナリオにまたがって25人を対象にした調査に基づくと、VOIDが選ばれたのは64.8%の割合で、2位のRunwayは18.4%でした。

著者らは、「合成データと現実世界のデータの双方において、インペインティングおよびテキストに導かれた動画モデルのベースラインに対して広範に評価した結果、VOIDはオブジェクト除去に続いて起こり得る複雑なダイナミクスのモデリングに優れていることを示します」と主張しています。

世界が本当に、より説得力のある動画操作を必要としているのかどうかは、また別の問題です。®

これに近い内容
×

より絞り込んだ話題

詳細はこちら

詳細はこちら

これらに近い内容
×

より絞り込んだトピック

ニュースをお寄せください

ニュースをお送りください