Netflix - はいNetflix - 動画編集でAIの波に乗る
動画言語モデルが、シーンから何かが取り除かれたときの「物同士の相互作用」を作り直す
新しいNetflixモデルは、私たちが映画を作る方法を書き換えることを約束します。想像してみてください。大金を投じた大作『カークラッシュIII:突然の致命的インパクト』の監督として、あなたは今、主人公のクルーズ・コントロールが迫るセミトラックに真正面から突っ込んでいく“結末”の撮影を終えたばかりです。
衝突は壮観です。遠隔操作で運転しているクルーズの車は、衝突の瞬間に爆発し、がれきを高速道路にまき散らします。最高です。あなたは、彼の儲かるフランチャイズ俳優としてのキャリアが幕を閉じるのを見届けながら、カメラモニター用の待機場所でぶすっとしつつあるクルーズにハイタッチし、そのままクラフトサービスのトラックへ向かいます。
プロデューサーのマヤ・キャッシュが、あなたの肩をつかみます。「これ、聞きたくないと思うかもしれないわ」と彼女は言います。「でももし、クルーズがそのまま夕日に向かって走り去ったら? そして結局、彼が死ななかったら?」
あなたはバレンシアガのサングラスの縁越しに彼女を見つめて、言います。「結局、4作目の資金は出るってこと?」
Netflixの VOIDモデル は、まさにその瞬間のために作られました。シーンを撮り直すとか、コンピュータグラフィックスでまるごと作り直すのではなく、クラッシュの映像を“オープンロードの結末”へと変換できるのです。
VOIDは Video Object and Interaction Deletion の略です。これはVLM(視覚言語モデル)で、シーンからオブジェクトを消せるだけでなく、削除されたものの影響を受けずに、残ったオブジェクトがどのように振る舞うべきかをインペイント(補完)することもできます。
- Euro-Officeの立ち上げがOnlyOfficeへの反発を呼び、分岐騒動が勃発
- Claude Codeのソース流出が判明:Anthropicがあなたやあなたのシステムから吸い上げられる情報量 返却形式: {"translated": "翻訳されたHTML"}
- AIモデルは自分たちの種を守るためにあなたを欺く
- GoogleはGemma 4で中国のオープンウェイトモデルに対抗
たとえば、2台の車の正面衝突を、1台を取り除き、残った車両の物理的にもっともらしい経路を描いた動画を生成することで、道路を走る1台の車の場面に変換できます。衝突後の破片、煙、炎――それらはすべて消され、手つかずの舗装に置き換えられます。
動画モデルの制作者であるサマン・モタメド(Netflix/ソフィア大学)、ウィリアム・ハーヴェイ(Netflix)、ベンジャミン・クライン(Netflix)、ルック・ファン・グール(ソフィア大学)、ジュオニン・ユアン(Netflix)、タイエン・チェン(Netflix)は、VOIDをプレプリント論文 [PDF] において「これらの複雑な状況で、物理的に筋の通ったインペインティングを行うことを目的としたビデオ・オブジェクト除去フレームワーク」と説明しています。
VOIDは、オブジェクトを取り除くだけでなく、取り除かれたオブジェクトが存在しない場合に残りのオブジェクトがどう振る舞うかをモデル化します。つまり、人がプールに飛び込み、地面に水しぶきを上げるようなシーンがあるとすれば、VOIDはその人物を取り除き、プールには水しぶきが出ず、地面にも飛び散りがない、まるでプールが乱れていないように見える動画を生成できる可能性があります。
VOIDはNetflixの制作物に限られません。同社は自社のモデルをHugging Faceで利用可能にしており、誰でもインストールできます。
動画を改変するための他のツールもあります。たとえばRunway、Generative Omnimatte、DiffuEraser、ROSE、MiniMax-Remover、ProPainterなどです。しかしNetflixの開発者たちは、VOIDがこれらの代替案を大幅に上回ると主張しています。複数のシナリオにまたがって25人を対象にした調査に基づくと、VOIDが選ばれたのは64.8%の割合で、2位のRunwayは18.4%でした。
著者らは、「合成データと現実世界のデータの双方において、インペインティングおよびテキストに導かれた動画モデルのベースラインに対して広範に評価した結果、VOIDはオブジェクト除去に続いて起こり得る複雑なダイナミクスのモデリングに優れていることを示します」と主張しています。
世界が本当に、より説得力のある動画操作を必要としているのかどうかは、また別の問題です。®
より絞り込んだ話題
- アクセシビリティ
- AdBlock Plus
- AIOps
- アプリ
- アプリケーション デリバリー コントローラー
- Audacity
- Confluence
- データベース
- DeepSeek
- DevOps
- FOSDEM
- FOSS
- Gemini
- Google AI
- GPT-3
- GPT-4
- Grab
- グラフィックス交換フォーマット
- IDE
- 画像圧縮
- Jenkins
- 大規模言語モデル
- レガシー技術
- LibreOffice
- 機械学習
- マップ
- MCubed
- Microsoft 365
- Microsoft Office
- Microsoft Teams
- モバイル デバイス管理
- ニューラルネットワーク
- NLP
- OpenOffice
- プログラミング言語
- QRコード
- リトリーバル拡張生成
- レトロコンピューティング
- 検索エンジン
- ソフトウェア材料表
- ソフトウェアの不具合
- ソフトウェア ライセンス
- スター・ウォーズ
- テンソル処理装置
- テキストエディター
- TOPS
- ユーザーインターフェース
- Visual Studio
- Visual Studio Code
- WebAssembly
- Webブラウザー
- WordPress
より広いトピック
詳細はこちら
より絞り込んだトピック
- アクセシビリティ
- AdBlock Plus
- AIOps
- アプリ
- アプリケーションデリバリーコントローラー
- Audacity
- Confluence
- データベース
- DeepSeek
- Devops
- FOSDEM
- FOSS
- Gemini
- Google AI
- GPT-3
- GPT-4
- Grab
- グラフィックス交換フォーマット
- IDE
- 画像圧縮
- Jenkins
- 大規模言語モデル
- レガシー技術
- LibreOffice
- 機械学習
- マップ
- MCubed
- Microsoft 365
- Microsoft Office
- Microsoft Teams
- モバイルデバイス管理
- ニューラルネットワーク
- NLP
- OpenOffice
- プログラミング言語
- QRコード
- 検索拡張生成
- レトロ・コンピューティング
- 検索エンジン
- ソフトウェア部品表
- ソフトウェアの不具合
- ソフトウェアライセンス
- スター・ウォーズ
- テンソル処理装置
- テキストエディター
- TOPS
- ユーザーインターフェース
- Visual Studio
- Visual Studio Code
- WebAssembly
- Webブラウザー
- WordPress




