要点

Simon Willisonが、macOSのコマンドラインで `uv` を使って、MLXと `mlx-vlm` ツールキット経由でGemma 4 E2Bモデルにより音声ファイルを文字起こしするレシピを共有しています。
この例では、音声入力、簡単な文字起こし用プロンプト、さらに `--max-tokens` や `--temperature` のような生成パラメータを指定して `mlx_vlm.generate` を実行します。
14秒のWAVでの簡単なテストにより、エンドツーエンドで手法が動作することが確認できますが、同時にときどき文字起こしミス（例：「right here」を「front」と聞き間違える）も示されます。
本記事は、Gemma 4のバリアントと対応ライブラリを使ってローカル／MLXベースの音声文字起こしを行うための実用的な「手順メモ（how to）」として位置づけられています。

Simon Willison’s Weblog

提供: Teleport — Teleport Beamsで数秒でエージェントをあなたのインフラに接続します。内蔵されたアイデンティティ。秘密情報ゼロ。早期アクセスを取得

2026年4月12日

Rahim Nathwaniからのヒントのおかげで、macOS上で、MLXと mlx-vlm を使い、10.28 GBの Gemma 4 E2Bモデルによって音声ファイルを文字起こしするための uv run レシピはこちらです:

uv run --python 3.13 --with mlx_vlm --with torchvision --with gradio \
  mlx_vlm.generate \
  --model google/gemma-4-e2b-it \
  --audio file.wav \
  --prompt "この音声を文字起こししてください" \
  --max-tokens 500 \
  --temperature 1.0

お使いのブラウザは音声要素をサポートしていません。

それをこの14秒の.wavファイルで試してみたところ、次のような出力が得られました:

ここにあるのは簡単なボイスメモです。MLX VLMで試してみたいです。Gemmaで文字起こしできるかどうか、そしてそれがどう動くのかを見てみるだけです。

（本当は「ここ右にあるのは…」と「…どれだけうまく動くのか」だったはずですが、「front（前）」や「how that works（それがどう動くか）」として誤解された理由が分からなくもないです。）

2026年4月12日 2026年4月12日に 11:57 pm に投稿

MLXでGemma 4の音声を扱う

要点

Simon Willison’s Weblog

最近の記事

月次ブリーフィング

関連記事

Black Hat USA

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Simon Willison’s Weblog

最近の記事

月次ブリーフィング

関連記事

Black Hat USA

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃 数千の脆弱性を発見、一般公開せず

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず