MLXでGemma 4の音声を扱う

Simon Willison's Blog / 2026/4/13

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • Simon Willisonが、macOSのコマンドラインで `uv` を使って、MLXと `mlx-vlm` ツールキット経由でGemma 4 E2Bモデルにより音声ファイルを文字起こしするレシピを共有しています。
  • この例では、音声入力、簡単な文字起こし用プロンプト、さらに `--max-tokens` や `--temperature` のような生成パラメータを指定して `mlx_vlm.generate` を実行します。
  • 14秒のWAVでの簡単なテストにより、エンドツーエンドで手法が動作することが確認できますが、同時にときどき文字起こしミス(例:「right here」を「front」と聞き間違える)も示されます。
  • 本記事は、Gemma 4のバリアントと対応ライブラリを使ってローカル/MLXベースの音声文字起こしを行うための実用的な「手順メモ(how to)」として位置づけられています。
提供: Teleport — Teleport Beamsで数秒でエージェントをあなたのインフラに接続します。内蔵されたアイデンティティ。秘密情報ゼロ。 早期アクセスを取得

2026年4月12日

Rahim Nathwaniからのヒントのおかげで、macOS上で、MLXと mlx-vlm を使い、10.28 GBの Gemma 4 E2Bモデル によって音声ファイルを文字起こしするための uv run レシピはこちらです:

uv run --python 3.13 --with mlx_vlm --with torchvision --with gradio \
  mlx_vlm.generate \
  --model google/gemma-4-e2b-it \
  --audio file.wav \
  --prompt "この音声を文字起こししてください" \
  --max-tokens 500 \
  --temperature 1.0

お使いのブラウザは音声要素をサポートしていません。

それをこの14秒の.wavファイルで試してみたところ、次のような出力が得られました:

ここにあるのは簡単なボイスメモです。MLX VLMで試してみたいです。Gemmaで文字起こしできるかどうか、そしてそれがどう動くのかを見てみるだけです。

(本当は「ここ右にあるのは…」と「…どれだけうまく動くのか」だったはずですが、「front(前)」や「how that works(それがどう動くか)」として誤解された理由が分からなくもないです。)

2026年4月12日 2026年4月12日 に 11:57 pm に投稿

これはSimon Willisonによる2026年4月12日に投稿されたノートです。

python 1243 ai 1957 generative-ai 1737 llms 1704 uv 92 mlx 42 gemma 14 speech-to-text 17

月次ブリーフィング

$10/月で私をスポンサーし、今月の最も重要なLLMの動向を厳選したメールのダイジェストを受け取ってください。

少ない手間で済むように、あなたに代わって送ります!

スポンサー&購読