| Phosphene は、Apple Silicon 搭載の Mac 上で動画を生成するための無料のデスクトップパネルです。Lightricks の LTX 2.3 モデルを Apple の MLX フレームワーク上でネイティブに動作させ、それを包み込んでいます。Pinokio によるワンクリック導入にも対応しています。 差別化ポイントは音声です。LTX 2.3 は、1 回のフォワードパスで動画と音声を生成します。両者は同じ拡散プロセスを共有しているため、タイミングはフレーム単位で結び付けられます。足音は正しいフレームに着地します。口の動きは台詞と一致します。環境音は映像コンテンツに条件付けされます。その他のローカル動画モデル(Wan、Hunyuan、Mochi など)の多くは無音の動画を生成し、後処理で音声を追加します。 できること 4 つの生成モード:
加えて、ローカルの Gemma 3 12B 4-bit テキストエンコーダによるプロンプト書き換えも可能です。拡散ステージでプロンプトを読み取るのと同じモデルが、LTX 2.3 が学習されたフォーマットに合わせて書き換えることもできます。オフラインで動作し、数秒で完了します。 品質ティア ジョブごとに選べる 3 つの品質レベル:
ハードウェア互換性 Apple Silicon のみ。パネルは起動時に Mac の RAM を検出し、それに応じて機能を制限します:
これは LTX 2.3 の作業テンソルのフットプリントが実在するためです。常駐メモリが約 30 GB 未満では、1280×704 の 5 秒生成を行う方法がありません。ティアシステムは、そのことをユーザーに OOM killer の範囲外になるジョブを並べさせてしまうのではなく、正直に扱います。 Intel Mac およびその他のプラットフォームはサポートされません。移植のための経路はありません。MLX は設計上、Apple のみで動作します。 音声の挙動 音声の品質はプロンプトに条件付けされます。映像のみのプロンプトだと、かすかな環境音が生成され、「ほぼ無音」に聞こえることがあります。音声の手がかりを明示したプロンプトでは、奥行きのある(レイヤー化された)前景の音が出ます。 比較:
これは Phosphene の癖ではなく、LTX 2.3 のドキュメント化された挙動です。サウンドスケープは、映像を説明するのと同じように、プロンプト内で記述してください。 既存ツールとの違い Mac 上でローカルに実行できる他の動画モデルと比べて:
出力形式 デフォルトはロスレス H.264 — yuv444p、CRF 0。これにより、アーカイブはレンダラーが生成できる最高の忠実度になります。Web/ソーシャルのプラットフォーム側では、いずれにせよ再エンコードされます。yuv420p を直接使いたい場合は、環境変数で上書きしてください(LTX_OUTPUT_PIX_FMT、LTX_OUTPUT_CRF)。 +faststart の movflag が有効なので、moov atom はファイルの先頭に置かれます。ギャラリーのサムネイルは、フルのクリップをダウンロードせずに最初のフレームを即座にデコードできます。 インストール Pinokio の Discover タブで Phosphene を検索し、Install をクリックしてください。Pinokio が venv、Python 3.11 のピン、MLX パイプラインのインストール、コーデックのパッチ、そして約 31 GB のモデルダウンロード(Q4 LTX 2.3 + Gemma テキストエンコーダ)を処理します。レジューム対応 — ダウンロードが中断されても、もう一度 Install を押せば中断したところから再開します。 任意: まず Terminal で「hf auth login」を実行し、Hugging Face のダウンロードを認証します。匿名ダウンロードはスロットリングされます。認証済みダウンロードはおよそ 10 倍速く、オプションの 25 GB の Q8 モデルでは特に重要になります。 [ATTACH VIDEO: phosphene_hero_x.mp4] ライセンス + クレジット Phosphene パネル: MIT。 制作のベース:
出典: github.com/mrbizarro/phosphene。Issues と PR は歓迎します。 [link] [comments] |
Apple Silicon向けオープンソース「Phosphene」:LTX 2.3でローカル動画・音声生成
Reddit r/MachineLearning / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- Phospheneは、Apple Silicon搭載Mac向けのオープンソース・デスクトップアプリで、MLXフレームワークを通じてLightricksのLTX 2.3モデルを使い、Pinokioによるワンクリック導入にも対応しています。
- 大きな特徴は音声の統合生成で、LTX 2.3は動画と音声を単一のフォワードパスで同時に生成するため、足音やリップシンクなどのタイミングがフレーム単位で揃います。
- テキストからの動画生成、静止画からの動画化、先頭/末尾フレーム間の補間、既存クリップの延長(つなぎ目も音声連続)といった複数のワークフローに対応し、さらにGemma 3 12B 4-bitによるローカルのプロンプト書き換えも可能です。
- 品質はDraft・Standard・Highの3段階があり、Highでは2段階構成とTeaCacheによる高速化を使い、追加モデルのオンデマンドDLが必要になる場合があります。
- 生成はオフラインで行われ、RAM量に応じて機能やクリップ長が調整され(例:32GB/64GB/96GB)、1ジョブあたり数秒で実行されます。




