MLXでGemma 4の音声を扱う

Simon Willison's Blog / 2026/4/13

💬 オピニオンTools & Practical UsageModels & Research

要点

  • Simon Willison は、macOS の `uv run` コマンドを共有し、MLX と `mlx-vlm` を通じて Google の Gemma 4 E2B モデルを使って音声ファイルを文字起こしします。
  • 例では、単純な「この音声を文字起こししてください」というプロンプトと、`--max-tokens` や `--temperature` のようなサンプリングパラメータを用いて、`mlx_vlm.generate` のパイプラインを使います。
  • 短いデモ用の `.wav` ファイルをテストすると、いくつかの単語が誤認されるなど不完全な文字起こし結果になりました(例:「right here」→「front」)。
  • この投稿は、Apple 向けツール(MLX)と軽量な実行ワークフローを使って、ローカルで Gemma 4 の音声文字起こしを試すための実用的で再現可能なレシピとして紹介されています。
提供: Teleport — Teleport Beamsで数秒でエージェントをあなたのインフラに接続。内蔵のアイデンティティ。秘密なし。 早期アクセスを受け取る

2026年4月12日

Rahim Nathwani からのヒントのおかげで、MLXとmlx-vlm を使い、10.28 GBの Gemma 4 E2Bモデル でmacOS上のオーディオファイルを書き起こすための uv run レシピを紹介します:

uv run --python 3.13 --with mlx_vlm --with torchvision --with gradio \
  mlx_vlm.generate \
  --model google/gemma-4-e2b-it \
  --audio file.wav \
  --prompt "Transcribe this audio" \
  --max-tokens 500 \
  --temperature 1.0

お使いのブラウザはオーディオ要素をサポートしていません。

これを この14秒の.wavファイル で試してみたところ、次のような出力が得られました:

この手前は簡単なボイスメモです。MLX VLMで試してみたい。Gemmaで書き起こせるのか、それがどう動くのかを見てみます。

(本当は「これこれ…」と「…どれくらい上手くいくか」だったはずですが、「手前」と「どう動くか」と聞き間違えた理由も分かります。)

2026年4月12日 23:57に投稿

こちらはSimon Willisonによるノートで、2026年4月12日に投稿されました。

python 1243 ai 1957 generative-ai 1737 llms 1704 uv 92 mlx 42 gemma 14 speech-to-text 17

月次ブリーフィング

月10ドルで私をスポンサーし、今月の最も重要なLLMの動向を厳選したメールのダイジェストを受け取ってください。

私にお金を払って、あなたにはもっと少ない手間で済ませましょう!

スポンサー&購読する