GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

Dev.to / 2026/4/10

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • FramePack F1は、約6GBのVRAMで画像から動画を生成できるため、GTX 1660やRTX 3060のようなGPUでも現実的に動かせます。
  • これを実現するには、合計で約25GBのダウンロードを要するマルチコンポーネントのローカル・パイプラインが必要で、その内訳には13GBのFP8拡散モデルに加え、いくつかのテキスト/ビジョン・エンコーダやVAEが含まれます。
  • このシステムは、全フレームを一度に読み込んだり生成したりせず、次フレーム予測(フレームを順次生成)を採用します。これによりVRAM使用量を抑えられる一方、生成速度は遅くなります。
  • ユーザーはComfyUIとFramePackラッパーのカスタムノードをインストールする必要があります。ローカル環境で得られる結果はプロジェクト用途に使える場合もありますが、約3秒のクリップを生成するには通常数分かかります。
  • この記事ではFramePackを、従来のクラウドAPI利用が前提だった状況や、実用的なローカル画像から動画への生成に必要とされる24GB超のVRAM要件からの「実用的な転換」として位置付けています。

数週間前までは、1枚の画像から動画を生成するには、1秒ごと課金のクラウドAPIか、24GB以上のVRAMを搭載したGPUが必要でした。FramePackがそれを変えました。

FramePack F1は6 GB VRAMで、1枚の画像から動画を生成します。これはGTX 1660、RTX 3060、または要するに過去5年の間に販売されたほぼどんなGPUでも可能です。私はローカルで動かしてきましたが、結果は本当に実用的です。「技術デモとしての動作」ではなく、「実際にプロジェクトに入れられる」レベルで使えます。

「6 GB VRAMで動作する」とだけでは全てが伝わらないので、実際に何が関わっているのかを説明します。

実際にダウンロードしているもの

FramePackは1つのファイルではありません。5つのコンポーネントから成るパイプラインで、それらすべてが必要です:

コンポーネント サイズ 役割
FramePack F1 I2V Model (FP8) 13 GB 中核となる拡散モデル — 動画フレームを生成
LLaVA LLaMA3 Text Encoder (FP8) 8.5 GB あなたのテキストプロンプトを理解する
HunyuanVideo VAE 2.3 GB 入力画像を潜在空間にエンコードし、生成したフレームをピクセルへデコードする
SigCLIP Vision Encoder 900 MB 入力画像の内容を理解する
CLIP-L Text Encoder 240 MB 追加のテキスト理解(HunyuanVideoと共有)

合計ダウンロード:約25 GB。 さらに、ComfyUIのインストールと、KijaiによるComfyUI-FramePackWrapper のカスタムノードが必要です。

つまり、モデルは6 GB VRAMに収まりますが、ハードドライブには25 GB必要で、最初のダウンロードにはしばらく時間がかかります。

なぜ6 GB VRAMで動くのか

ほとんどの動画生成モデルは、すべてをVRAMに一度に読み込みます。FP16の14Bパラメータモデルは、重みだけで約28 GBが必要です。そのため、Wan 2.1 14Bは3090以上が必要になります。

FramePackは次フレーム予測を使います。すべてのフレームを同時に生成するのではなく、1フレームずつ生成し、必要な分だけをメモリに保持します。モデル自体はディスク上で13 GBですが、FP8の量子化とフレームごとの手法によって、VRAM使用量のピークはおよそ6 GBになります。

代償は速度です。3秒のクリップ生成には、中程度のGPUで数分かかります。ハイエンドのカードなら速くなりますが、それでもリアルタイムにはなりません。このアーキテクチャはスループットではなくメモリのために最適化されています。

中身では何を使っているのか

FramePack F1はHunyuanVideoのバックボーン上に構築されています。そのためHunyuanVideoとコンポーネントを共有しています(VAE、CLIP-Lエンコーダ)。パイプラインは次のように動きます:

  1. SigCLIP Vision Encoderが入力画像を見て、ビジュアル埋め込み(数値表現として画像に含まれる内容)を作成します
  2. DualCLIPLoaderが2つのテキストエンコーダ(CLIP-L + LLaVA LLaMA3)を読み込み、あなたのテキストプロンプトを処理します
  3. VAEが入力画像を潜在空間へエンコードします
  4. FramePackSamplerが画像の潜在表現、ビジョン埋め込み、テキストの条件付けを受け取り、次フレーム予測で1フレームずつ動画フレームを生成します
  5. VAEが生成された潜在フレームを実際のピクセルへデコードします

サンプラーには、既定で6.0 GBに設定されたgpu_memory_preservationパラメータがあります。これは、その予算の範囲内に収まるように積極的にメモリを管理するためのものです。

結果はどんな見た目になるのか

FramePackは静止画像からのモーションを行います。人物の写真を渡すと、自然な動きを追加します—頭の向きの変化、瞬き、そして控えめな身体の動きです。風景を渡すと、風、雲、水の流れを追加します。

特に得意なのは:

  • ポートレートや人物 — 自然な微小動作
  • 自然シーン — 風、水、空気感のある効果
  • シンプルな構図 — 背景の中で被写体がはっきりしている

苦手なのは:

  • 複雑な複数人のシーン — トラッキングが混乱する
  • 素早いアクション — やさしく自然な動きのために調整されている
  • 長時間 — 約4秒以降に品質が劣化する

出力解像度は入力画像に従います。512x768のポートレートを与えれば、512x768の動画が得られます。

動かすには

手動でセットアップしたい場合:ComfyUIをインストールし、FramePackWrapperのカスタムノードをcloneし、5つすべてのモデルファイルを正しいComfyUIのサブディレクトリにダウンロードし、適切な順序で全ノードをつなぐワークフローを組み立て、既存のセットアップと衝突しないことを祈ります。

または—私が作ったのはこれですが—Locally Uncensoredがパイプライン全体を処理します。「Create」タブを開き、FramePackバンドルを選び、ワンクリックで5つすべてのコンポーネントをダウンロードし、画像をアップロードし、欲しいモーションを書いて、生成します。アプリが正しいワークフローを自動で構築します。

さらに、他のモデル(Wan 2.1、CogVideoX、FLUX、SDXL)を使ったテキスト-to-イメージ、イメージ-to-イメージ、テキスト-to-ビデオにも対応しています。ComfyUIは自動検出されるか、ワンクリックでインストールできます。オープンソース、AGPL-3.0です。

正直なところ

6 GB VRAMでの動画生成は本当で、動作します。ですが、魔法だと誤魔化すのはやめましょう:

  • 何かを生成する前に25 GBをダウンロード
  • 中程度のハードウェアでは1クリップあたり数分
  • 1生成あたり使える出力は3〜4秒
  • 品質は画像によって変わる — きれいにアニメーションするものもあれば、変な見た目になるものもある

これは特定の用途向けのツールで、クラウドの動画生成サービスの代替ではありません。しかし、その用途—短いSNS向けコンテンツ、アニメーション化された商品カット、コンセプトアートに命を吹き込むこと—において、すでに手元にあるGPUで無料でローカル実行できるというのは、確かにとても魅力的です。

GitHubPurpleDoubleD/locally-uncensored