LTX-2.3ベースの音声モデルの出力例

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

この投稿では、LTX-2.3ベースの音声モデルで生成された音声出力の例が紹介されています。
例には、悪役の笑い声、ノワール風の探偵、トーク番組の司会者など、さまざまなキャラクターの話し方プロンプトが含まれています。
モデルが、笑い・息づかい・荒れたような低い声・芝居がかった強い語気などの“声優っぽさ”をどのように再現するかに焦点が当てられています。
全体としては技術解説や新リリース情報というより、音声生成の実用的な能力を見せるショーケースだといえます。

悪役の不気味な笑い
プロンプト: 深い低い声の悪役が、芝居がかった不気味さで語りかけます。最初は小さく含み笑いをしてから、「へへへ。はははははは！ああ、許してくれ、許してくれ。」と話します。彼は息を吸い込み、不気味な笑みで息を整え、喉を鳴らします。「彼らがもがくのが、なんて――とても――愉快なんでしょうね？」と、声には軽蔑がにじみます。「本当に、君からもっと期待していたんだ。……がっかりだよ。」彼は身を寄せて近くから、残酷な強さで囁きます。「でも心配しないで、ねえ。真のエンターテインメントは、もう始まったばかりだよ。」最後にもう一度、彼は笑います。「へへへ。」

くたびれた刑事（ノワール）
プロンプト: くたびれた刑事が、低く荒れた声で語ります。彼はタバコを長く吸ってから、ゆっくりと吐き出します。「この街はな、人間を喰い殺すんだ。食いちぎって、吐き出す。」彼は咳き込みます。深くて、がらがらと鳴る咳です。「へっ、こいつらは刑事の連中より先に、俺を殺しちまいそうだな。」彼は疲れ切ってため息をつきます。「この警察にいて20年だ。善良でまともだった人が、腐っていくのを20年見てきた。」彼は暗く笑います。「なあ、可笑しいと思わないか？どれもこれも、可笑しくなんてないんだ。ちっともな。」彼は喉を鳴らします。「さあ行こう、仕事があるんだ。」
トーク番組の司会者（抑えられない笑い）
プロンプト: トーク番組の司会者が、生き生きとした熱意で話します。彼は誇張されたショックで息をのんで、「だめ！いまそれ、言ったでしょ？言ったって言うんじゃないよね！？」と叫びます。彼は抑えがきかないほど大爆笑します。「ハハハ！ああ神様、ああ神様！」彼はゼーゼーしながら、かろうじて言葉を絞り出します。「今、無理です、マジで今は息ができません！」彼は目を拭いながら鼻をすするように言います。「ああ、すごくいい。ほんとに、心底いい。」彼は幸せそうにため息をつきます。「ああ、よしよし、落ち着こう。私はプロなんで。」彼は息をひとつ吸って、その直後また壊れたように笑います。「プッファ、へへへ、いや無理です、みんなごめんなさい！」彼は手を叩きます。「皆さん、これですよ、これこそが！俺がこの仕事を大好きな理由なんです！」
アクションヒーロー（息を切らして勝利）

プロンプト: 筋肉質の男が、濃い訛りで話します。息を荒く、完全に息切れしながら、「ハァ……ハァ……やった、ほんとにやった。」と言います。彼は乱暴に咳き込みます。「うっ……あれは人生で一番きつい戦いだった、誓う。」彼はうめきながら脇腹を押さえます。「ぐっ、俺の肋骨……たぶん何か折れてる。」でも、その後笑みが広がり、痛みをこらえながらも心の底から笑います。「ハハハ！でも俺たちが勝った！信じられるか？本当に勝ったんだ！」彼は深く、震えるように息を吸って、「お前に言っただろ、へへ。俺たちはやれるって言った。ああ、やっと終わった。」

安定した出力で45秒。
長いチャンクができるように、連続チャンク化を試しています。
オフロードでgemmaモデルを使った場合のピークVRAM使用量は約8GB。もし全部をメモリに保持すると、約21GBのVRAMを使いますが、推論速度は大幅に向上します。

submitted by /u/manmaynakhashi
[リンク] [コメント]