AI Navigate

Stability AIとArmが協力してStable Audio Open Smallを公開、オンデバイス音声生成の実世界展開を可能にする

Stability AI Blog / 2026/3/21

📰 ニュースIndustry & Market MovesModels & Research

要点

  • Stability AIとArmは、オンデバイス音声生成を可能にするStable Audio Open Smallのリリースを発表しました。
  • このモデルはエッジデバイス上での実行を想定して設計されており、クラウドへの依存を減らし、低遅延と改善されたプライバシーを備えた実世界展開を可能にします。
  • この協力関係は、モバイルおよび組み込みハードウェアでの性能向上を図るため、Armアーキテクチャ向けの最適化を強調しています。
  • このリリースは、開発者や企業が高品質な音声生成を製品やアプリに組み込むためのアクセスを拡大することを目的としています。

Stability AIとArmが協力してStable Audio Open Smallを公開し、オンデバイス音声生成の実世界展開を実現

主要なポイント:

  • Stable Audio Open Smallをオープンソース化します。これは341百万パラメータのテキストから音声へのモデルで、Arm CPU上で完全に動作するよう最適化されています。短い音声サンプルを迅速に生成するよう設計されており、スマートフォン上で最大11秒の音声を、8秒未満で生成できます。

  • このリリースは Arm との協力を基に、スマートフォンへの生成的音声生成を提供することを実現します。最近の 最近の発表 に続くものです。

  • 開発者は、新しい Arm Learning Path を参照できます。Arm CPU 上で Stable Audio Open Small を使用する実践的ガイダンスを提供します。

  • Stable Audio Open Small は、寛容な Stability AI Community License の下で商用・非商用利用に対して無料になりました。arXiv で論文を読み、Hugging Face でモデルのウェイトをダウンロードし、GitHub でコードにアクセスできます。


モバイル端末での生成型オーディオ創出を実現する

Arm と提携して Stable Audio Open Small をオープンソース化しています。Arm の技術は世界中のスマートフォンの約99%を搭載しています。業界をリードするテキストからオーディオへのモデル Stable Audio Open を基にした新しいコンパクト版は、出力品質とプロンプトの遵守を維持しつつ、小型で高速です。 

このリリースは、以前に発表した画期的な成果に続くもので、Stable Audio Open が Arm CPU で動作するよう最適化され、Arm KleidiAI によってモバイルフォン上で AI 生成音声を可能にします。モバイルワールドコングレスで技術を実演した後、Stability AI と Arm は誰もがアクセスしてモデルをデプロイできるよう、モデルの重みを提供しています。 

技術的進展

私たちの知る限り、Stable Audio Open Small は市場で最速のステレオ対応のテキストからオーディオへ生成するモデルです。モデルの技術進歩の詳細は、研究論文 に記載されています。以下はいくつかのハイライトです:

軽量: Stable Audio Open Small は 3億4100万パラメータで、Stable Audio Open の 11億パラメータと比較されます。

高速: Stable Audio Open Small はモバイルフォン上で8秒未満で音声を生成するよう最適化されています。生成も微調整もより高速です。

効率的: Arm の KleidiAI ライブラリ を活用して、この新しいモデルをエッジでさらに効率的に動作させ、ユーザーにより速い結果を返し、計算時間のコストを削減します。Arm CPU のみで動作することで、重いハードウェア要件なしに Stable Audio Open Small にアクセスできます。

モデルを使用すべき時

Stable Audio Open と同様、Stable Audio Open Small はテキストプロンプトを用いて短い音声サンプルや効果音、制作要素を生成するよう最適化されています。ドラムループ、フォーリー、楽器リフ、アンビエントな質感の作成に適しています。

そのコンパクトなサイズと高速推論により、Arm 搭載スマートフォンやエッジデバイス上でのオンデバイス展開に最適であり、リアルタイム生成と応答性が重要な場所で活躍します。

AI 主導のクリエイティブメディアワークロードが エッジへ移行 する中、より小さなモデルはタスクの複雑さに合わせて計算リソースを整えます。異なるモデルサイズを使うことで、組織はユースケースに最も適したプロセッサへワークロードを割り当てることができます。例えば短い効果音の生成と長編曲の生成のように。

はじめに

Stable Audio Open Small は、寛容な Stability AI Community License の下で商用・非商用の利用が自由です。arXiv の論文を読み、Hugging Face からモデルのウェイトをダウンロードし、GitHub でコードにアクセスしてください。

Arm が提供する Arm Learning Path を参照して、Arm ハードウェア上で Stable Audio Open Small をデプロイする手順を確認するとともに、デバイス上でのパフォーマンス最適化についての深い技術解説を読むには Arm Community Blog をご覧ください。

最新情報を随時お届けします。X、LinkedIn、Instagram をフォローし、Discord コミュニティに参加してください。