aMuseMe：小型モデルでビジュアル・シンフォニーを作る

Dev.to / 2026/6/16

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

aMuseMeは、入力した音声ファイルから完全なスタイリッシュな歌詞動画を自動生成し、手作業のキーフレーム設定や編集の手間を不要にする。
この仕組みは「聞く（単語レベルのタイムスタンプ）→歌詞を表示行に整形→背景をイラスト化→30fpsのHD動画としてレンダリング」という4段階のパイプラインを、32Bパラメータ以内のローカル実行で実現している。
1段目（Listener）はfaster-whisper（Whisper large-v3、約1.55B）を用い、各単語が歌われた正確な瞬間に同期してハイライトされるように単語レベルのタイムスタンプを抽出する。
音楽（クリーンな音声ではない）で正確なタイムスタンプを得るために調整を行い、condition_on_previous_textで精度を上げつつ、VADの積極的なしきい値でインストゥルメンタル中の幻の歌詞（ハルシネーション）を抑える工夫をした。

この記事の続きは原文サイトでお読みいただけます。