要点

Simon Willison は、macOS の `uv run` コマンドを共有し、MLX と `mlx-vlm` を通じて Google の Gemma 4 E2B モデルを使って音声ファイルを文字起こしします。
例では、単純な「この音声を文字起こししてください」というプロンプトと、`--max-tokens` や `--temperature` のようなサンプリングパラメータを用いて、`mlx_vlm.generate` のパイプラインを使います。
短いデモ用の `.wav` ファイルをテストすると、いくつかの単語が誤認されるなど不完全な文字起こし結果になりました（例：「right here」→「front」）。
この投稿は、Apple 向けツール（MLX）と軽量な実行ワークフローを使って、ローカルで Gemma 4 の音声文字起こしを試すための実用的で再現可能なレシピとして紹介されています。

Simon Willison’s Weblog

提供: Teleport — Teleport Beamsで数秒でエージェントをあなたのインフラに接続。内蔵のアイデンティティ。秘密なし。早期アクセスを受け取る

2026年4月12日

Rahim Nathwani からのヒントのおかげで、MLXとmlx-vlm を使い、10.28 GBの Gemma 4 E2BモデルでmacOS上のオーディオファイルを書き起こすための uv run レシピを紹介します：

uv run --python 3.13 --with mlx_vlm --with torchvision --with gradio \
  mlx_vlm.generate \
  --model google/gemma-4-e2b-it \
  --audio file.wav \
  --prompt "Transcribe this audio" \
  --max-tokens 500 \
  --temperature 1.0

お使いのブラウザはオーディオ要素をサポートしていません。

これをこの14秒の.wavファイルで試してみたところ、次のような出力が得られました：

この手前は簡単なボイスメモです。MLX VLMで試してみたい。Gemmaで書き起こせるのか、それがどう動くのかを見てみます。

（本当は「これこれ…」と「…どれくらい上手くいくか」だったはずですが、「手前」と「どう動くか」と聞き間違えた理由も分かります。）

2026年4月12日 23:57に投稿

MLXでGemma 4の音声を扱う

要点

Simon Willison’s Weblog

最近の記事

月次ブリーフィング

関連記事

Black Hat USA

Black Hat Asia

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Simon Willison’s Weblog

最近の記事

月次ブリーフィング

関連記事

Black Hat USA

Black Hat Asia

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃 数千の脆弱性を発見、一般公開せず

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず