Apple Silicon向けオープンソース「Phosphene」:LTX 2.3でローカル動画・音声生成

Reddit r/MachineLearning / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Phospheneは、Apple Silicon搭載Mac向けのオープンソース・デスクトップアプリで、MLXフレームワークを通じてLightricksのLTX 2.3モデルを使い、Pinokioによるワンクリック導入にも対応しています。
  • 大きな特徴は音声の統合生成で、LTX 2.3は動画と音声を単一のフォワードパスで同時に生成するため、足音やリップシンクなどのタイミングがフレーム単位で揃います。
  • テキストからの動画生成、静止画からの動画化、先頭/末尾フレーム間の補間、既存クリップの延長(つなぎ目も音声連続)といった複数のワークフローに対応し、さらにGemma 3 12B 4-bitによるローカルのプロンプト書き換えも可能です。
  • 品質はDraft・Standard・Highの3段階があり、Highでは2段階構成とTeaCacheによる高速化を使い、追加モデルのオンデマンドDLが必要になる場合があります。
  • 生成はオフラインで行われ、RAM量に応じて機能やクリップ長が調整され(例:32GB/64GB/96GB)、1ジョブあたり数秒で実行されます。
Phosphene local video and audio generation for Apple Silicon open source (LTX 2.3) [P]

Phosphene は、Apple Silicon 搭載の Mac 上で動画を生成するための無料のデスクトップパネルです。Lightricks の LTX 2.3 モデルを Apple の MLX フレームワーク上でネイティブに動作させ、それを包み込んでいます。Pinokio によるワンクリック導入にも対応しています。

差別化ポイントは音声です。LTX 2.3 は、1 回のフォワードパスで動画と音声を生成します。両者は同じ拡散プロセスを共有しているため、タイミングはフレーム単位で結び付けられます。足音は正しいフレームに着地します。口の動きは台詞と一致します。環境音は映像コンテンツに条件付けされます。その他のローカル動画モデル(Wan、Hunyuan、Mochi など)の多くは無音の動画を生成し、後処理で音声を追加します。

https://preview.redd.it/vutakjb0vgyg1.png?width=1916&format=png&auto=webp&s=bfde8a7f91b861666196158fbf0f2b76d7d7b828

できること

4 つの生成モード:

  • テキスト → 動画 — シーンを説明すると、合成音声付きの 5 秒クリップが得られます
  • 画像 → 動画 — 静止画から開始し、同期された音声でそこからアニメーション化します
  • 最初のフレーム / 最後のフレーム — 2 枚の画像を指定すると、モデルが中間を補間します
  • Extend — 既存のクリップに秒数を追加し、接続部分をまたいで音声が連続します

加えて、ローカルの Gemma 3 12B 4-bit テキストエンコーダによるプロンプト書き換えも可能です。拡散ステージでプロンプトを読み取るのと同じモデルが、LTX 2.3 が学習されたフォーマットに合わせて書き換えることもできます。オフラインで動作し、数秒で完了します。

https://preview.redd.it/3irbyie5vgyg1.jpg?width=1920&format=pjpg&auto=webp&s=bb03a0c8e64899a83af7980847e61e28b75397ca

品質ティア

ジョブごとに選べる 3 つの品質レベル:

  • Draft — 解像度は半分、約 2 分。プロンプトの反復に。
  • Standard — 1280×704 のフル、7 分。毎日のメイン。Q4 を蒸留(ディスク 25 GB)。
  • High — TeaCache による高速化を伴う Q8 の 2 ステージ、約 12 分。追加で約 25 GB。オプションのダウンロード — パネルのボタンで必要に応じて取り込まれます。FFLF に必要です。

ハードウェア互換性

Apple Silicon のみ。パネルは起動時に Mac の RAM を検出し、それに応じて機能を制限します:

  • 32 GB → Compact: 解像度を下げ、クリップを短く
  • 64 GB → Comfortable: ベースラインの 1280×704 をフルで
  • 96 GB → High: もっと長いクリップ、フル Q8
  • 128+ GB → Pro: 制限なし

これは LTX 2.3 の作業テンソルのフットプリントが実在するためです。常駐メモリが約 30 GB 未満では、1280×704 の 5 秒生成を行う方法がありません。ティアシステムは、そのことをユーザーに OOM killer の範囲外になるジョブを並べさせてしまうのではなく、正直に扱います。

Intel Mac およびその他のプラットフォームはサポートされません。移植のための経路はありません。MLX は設計上、Apple のみで動作します。

音声の挙動

音声の品質はプロンプトに条件付けされます。映像のみのプロンプトだと、かすかな環境音が生成され、「ほぼ無音」に聞こえることがあります。音声の手がかりを明示したプロンプトでは、奥行きのある(レイヤー化された)前景の音が出ます。

比較:

  • 「森の中の魔法使い」→ 静かな部屋のトーン
  • 「森の中の魔法使い、低く囁く詠唱、くすぶる(ember)のパチパチ音、遠くのフクロウの鳴き声」→ 聞こえる詠唱+パチパチ音+フクロウ。すべて映像に合わせてタイミングが取られています

これは Phosphene の癖ではなく、LTX 2.3 のドキュメント化された挙動です。サウンドスケープは、映像を説明するのと同じように、プロンプト内で記述してください。

既存ツールとの違い

Mac 上でローカルに実行できる他の動画モデルと比べて:

  • ComfyUI ワークフローとの比較 — ComfyUI でも LTX 2.3 は動きますが、ジョブごとに構築が必要なノードグラフです。Phosphene は固定のパネルです: プロンプト、モード、寸法、生成。グラフのメンテナンスは不要です。
  • ネイティブ PyTorch ビルド(Wan、Mochi、Hunyuan)との比較 — それらは MPS 経由で torch 上で動作しますが、これは互換性のためのシムであり、ネイティブの Metal ではありません。MLX は Apple の計算フレームワーク上でモデルを直接実行します。同じハードウェアでの速度とメモリの差が、意味のある形で表れます。
  • クラウド / API サービス(Pika、Runway)との比較 — それらは H100 でより速く生成しますが、アカウント、キューの待ち時間、月額サブスクリプション、ソース画像のアップロードが必要です。Phosphene は、最初の重みのダウンロード以外はネットワークなしで動作します。
  • 無音のローカル動画モデルとの比較 — 結合した音声合成は、執筆時点では、Mac で実用的に動くランタイムを持つモデル群の中で、LTX 2.3 にのみ固有のものです。

出力形式

デフォルトはロスレス H.264 — yuv444p、CRF 0。これにより、アーカイブはレンダラーが生成できる最高の忠実度になります。Web/ソーシャルのプラットフォーム側では、いずれにせよ再エンコードされます。yuv420p を直接使いたい場合は、環境変数で上書きしてください(LTX_OUTPUT_PIX_FMT、LTX_OUTPUT_CRF)。

+faststart の movflag が有効なので、moov atom はファイルの先頭に置かれます。ギャラリーのサムネイルは、フルのクリップをダウンロードせずに最初のフレームを即座にデコードできます。

インストール

Pinokio の Discover タブで Phosphene を検索し、Install をクリックしてください。Pinokio が venv、Python 3.11 のピン、MLX パイプラインのインストール、コーデックのパッチ、そして約 31 GB のモデルダウンロード(Q4 LTX 2.3 + Gemma テキストエンコーダ)を処理します。レジューム対応 — ダウンロードが中断されても、もう一度 Install を押せば中断したところから再開します。

任意: まず Terminal で「hf auth login」を実行し、Hugging Face のダウンロードを認証します。匿名ダウンロードはスロットリングされます。認証済みダウンロードはおよそ 10 倍速く、オプションの 25 GB の Q8 モデルでは特に重要になります。

[ATTACH VIDEO: phosphene_hero_x.mp4]

ライセンス + クレジット

Phosphene パネル: MIT。
LTX 2.3 の重み: Lightricks 自身のライセンス — 商用利用の前に必ず読んでください。
MLX フレームワーク: Apache 2.0(Apple)。
Gemma の重み: Google の利用規約。

制作のベース:

  • LTX 2.3 モデル — Lightricks
  • MLX ポート(ltx-2-mlx)— u/dgrauet
  • MLX フレームワーク — Apple ML
  • Pinokio ランタイム — u/cocktailpeanut

出典: github.com/mrbizarro/phosphene。Issues と PR は歓迎します。

submitted by /u/Opening-Ad5541
[link] [comments]