Apple Silicon向けオープンソース「Phosphene」：LTX 2.3でローカル動画・音声生成

Reddit r/MachineLearning / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

Phospheneは、Apple Silicon搭載Mac向けのオープンソース・デスクトップアプリで、MLXフレームワークを通じてLightricksのLTX 2.3モデルを使い、Pinokioによるワンクリック導入にも対応しています。
大きな特徴は音声の統合生成で、LTX 2.3は動画と音声を単一のフォワードパスで同時に生成するため、足音やリップシンクなどのタイミングがフレーム単位で揃います。
テキストからの動画生成、静止画からの動画化、先頭/末尾フレーム間の補間、既存クリップの延長（つなぎ目も音声連続）といった複数のワークフローに対応し、さらにGemma 3 12B 4-bitによるローカルのプロンプト書き換えも可能です。
品質はDraft・Standard・Highの3段階があり、Highでは2段階構成とTeaCacheによる高速化を使い、追加モデルのオンデマンドDLが必要になる場合があります。
生成はオフラインで行われ、RAM量に応じて機能やクリップ長が調整され（例：32GB/64GB/96GB）、1ジョブあたり数秒で実行されます。

Phosphene local video and audio generation for Apple Silicon open source (LTX 2.3) [P]

Phosphene は、Apple Silicon 搭載の Mac 上で動画を生成するための無料のデスクトップパネルです。Lightricks の LTX 2.3 モデルを Apple の MLX フレームワーク上でネイティブに動作させ、それを包み込んでいます。Pinokio によるワンクリック導入にも対応しています。

差別化ポイントは音声です。LTX 2.3 は、1 回のフォワードパスで動画と音声を生成します。両者は同じ拡散プロセスを共有しているため、タイミングはフレーム単位で結び付けられます。足音は正しいフレームに着地します。口の動きは台詞と一致します。環境音は映像コンテンツに条件付けされます。その他のローカル動画モデル（Wan、Hunyuan、Mochi など）の多くは無音の動画を生成し、後処理で音声を追加します。

https://preview.redd.it/vutakjb0vgyg1.png?width=1916&format=png&auto=webp&s=bfde8a7f91b861666196158fbf0f2b76d7d7b828

できること

4 つの生成モード:

テキスト → 動画 — シーンを説明すると、合成音声付きの 5 秒クリップが得られます
画像 → 動画 — 静止画から開始し、同期された音声でそこからアニメーション化します
最初のフレーム / 最後のフレーム — 2 枚の画像を指定すると、モデルが中間を補間します
Extend — 既存のクリップに秒数を追加し、接続部分をまたいで音声が連続します

加えて、ローカルの Gemma 3 12B 4-bit テキストエンコーダによるプロンプト書き換えも可能です。拡散ステージでプロンプトを読み取るのと同じモデルが、LTX 2.3 が学習されたフォーマットに合わせて書き換えることもできます。オフラインで動作し、数秒で完了します。

https://preview.redd.it/3irbyie5vgyg1.jpg?width=1920&format=pjpg&auto=webp&s=bb03a0c8e64899a83af7980847e61e28b75397ca

品質ティア

ジョブごとに選べる 3 つの品質レベル:

Draft — 解像度は半分、約 2 分。プロンプトの反復に。
Standard — 1280×704 のフル、7 分。毎日のメイン。Q4 を蒸留（ディスク 25 GB）。
High — TeaCache による高速化を伴う Q8 の 2 ステージ、約 12 分。追加で約 25 GB。オプションのダウンロード — パネルのボタンで必要に応じて取り込まれます。FFLF に必要です。

ハードウェア互換性

Apple Silicon のみ。パネルは起動時に Mac の RAM を検出し、それに応じて機能を制限します:

32 GB → Compact: 解像度を下げ、クリップを短く
64 GB → Comfortable: ベースラインの 1280×704 をフルで
96 GB → High: もっと長いクリップ、フル Q8
128+ GB → Pro: 制限なし

これは LTX 2.3 の作業テンソルのフットプリントが実在するためです。常駐メモリが約 30 GB 未満では、1280×704 の 5 秒生成を行う方法がありません。ティアシステムは、そのことをユーザーに OOM killer の範囲外になるジョブを並べさせてしまうのではなく、正直に扱います。

Intel Mac およびその他のプラットフォームはサポートされません。移植のための経路はありません。MLX は設計上、Apple のみで動作します。

音声の挙動

音声の品質はプロンプトに条件付けされます。映像のみのプロンプトだと、かすかな環境音が生成され、「ほぼ無音」に聞こえることがあります。音声の手がかりを明示したプロンプトでは、奥行きのある（レイヤー化された）前景の音が出ます。

比較:

「森の中の魔法使い」→ 静かな部屋のトーン
「森の中の魔法使い、低く囁く詠唱、くすぶる（ember）のパチパチ音、遠くのフクロウの鳴き声」→ 聞こえる詠唱＋パチパチ音＋フクロウ。すべて映像に合わせてタイミングが取られています

これは Phosphene の癖ではなく、LTX 2.3 のドキュメント化された挙動です。サウンドスケープは、映像を説明するのと同じように、プロンプト内で記述してください。

既存ツールとの違い

Mac 上でローカルに実行できる他の動画モデルと比べて:

ComfyUI ワークフローとの比較 — ComfyUI でも LTX 2.3 は動きますが、ジョブごとに構築が必要なノードグラフです。Phosphene は固定のパネルです: プロンプト、モード、寸法、生成。グラフのメンテナンスは不要です。
ネイティブ PyTorch ビルド（Wan、Mochi、Hunyuan）との比較 — それらは MPS 経由で torch 上で動作しますが、これは互換性のためのシムであり、ネイティブの Metal ではありません。MLX は Apple の計算フレームワーク上でモデルを直接実行します。同じハードウェアでの速度とメモリの差が、意味のある形で表れます。
クラウド / API サービス（Pika、Runway）との比較 — それらは H100 でより速く生成しますが、アカウント、キューの待ち時間、月額サブスクリプション、ソース画像のアップロードが必要です。Phosphene は、最初の重みのダウンロード以外はネットワークなしで動作します。
無音のローカル動画モデルとの比較 — 結合した音声合成は、執筆時点では、Mac で実用的に動くランタイムを持つモデル群の中で、LTX 2.3 にのみ固有のものです。

出力形式

デフォルトはロスレス H.264 — yuv444p、CRF 0。これにより、アーカイブはレンダラーが生成できる最高の忠実度になります。Web/ソーシャルのプラットフォーム側では、いずれにせよ再エンコードされます。yuv420p を直接使いたい場合は、環境変数で上書きしてください（LTX_OUTPUT_PIX_FMT、LTX_OUTPUT_CRF）。

+faststart の movflag が有効なので、moov atom はファイルの先頭に置かれます。ギャラリーのサムネイルは、フルのクリップをダウンロードせずに最初のフレームを即座にデコードできます。

インストール

Pinokio の Discover タブで Phosphene を検索し、Install をクリックしてください。Pinokio が venv、Python 3.11 のピン、MLX パイプラインのインストール、コーデックのパッチ、そして約 31 GB のモデルダウンロード（Q4 LTX 2.3 + Gemma テキストエンコーダ）を処理します。レジューム対応 — ダウンロードが中断されても、もう一度 Install を押せば中断したところから再開します。

任意: まず Terminal で「hf auth login」を実行し、Hugging Face のダウンロードを認証します。匿名ダウンロードはスロットリングされます。認証済みダウンロードはおよそ 10 倍速く、オプションの 25 GB の Q8 モデルでは特に重要になります。

[ATTACH VIDEO: phosphene_hero_x.mp4]

ライセンス + クレジット

Phosphene パネル: MIT。
LTX 2.3 の重み: Lightricks 自身のライセンス — 商用利用の前に必ず読んでください。
MLX フレームワーク: Apache 2.0（Apple）。
Gemma の重み: Google の利用規約。

制作のベース:

LTX 2.3 モデル — Lightricks
MLX ポート（ltx-2-mlx）— u/dgrauet
MLX フレームワーク — Apple ML
Pinokio ランタイム — u/cocktailpeanut

出典: github.com/mrbizarro/phosphene。Issues と PR は歓迎します。

submitted by /u/Opening-Ad5541
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 5/1Dailyインサイトを見る →

Black Hat USA

AI Business

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

Reddit r/artificial

NVIDIA Nemotron 3 Super Buildコンテストの発表

Dev.to

Apple Silicon向けオープンソース「Phosphene」：LTX 2.3でローカル動画・音声生成

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

NVIDIA Nemotron 3 Super Buildコンテストの発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

NVIDIA Nemotron 3 Super Buildコンテストの発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣