提供: Teleport — Teleport Beamsで数秒でエージェントをあなたのインフラに接続。内蔵のアイデンティティ。秘密なし。 早期アクセスを受け取る
2026年4月12日
Rahim Nathwani からのヒントのおかげで、MLXとmlx-vlm を使い、10.28 GBの Gemma 4 E2Bモデル でmacOS上のオーディオファイルを書き起こすための uv run レシピを紹介します:
uv run --python 3.13 --with mlx_vlm --with torchvision --with gradio \
mlx_vlm.generate \
--model google/gemma-4-e2b-it \
--audio file.wav \
--prompt "Transcribe this audio" \
--max-tokens 500 \
--temperature 1.0
これを この14秒の.wavファイル で試してみたところ、次のような出力が得られました:
この手前は簡単なボイスメモです。MLX VLMで試してみたい。Gemmaで書き起こせるのか、それがどう動くのかを見てみます。
(本当は「これこれ…」と「…どれくらい上手くいくか」だったはずですが、「手前」と「どう動くか」と聞き間違えた理由も分かります。)
2026年4月12日 23:57に投稿
最近の記事
こちらはSimon Willisonによるノートで、2026年4月12日に投稿されました。
python 1243 ai 1957 generative-ai 1737 llms 1704 uv 92 mlx 42 gemma 14 speech-to-text 17月次ブリーフィング
月10ドルで私をスポンサーし、今月の最も重要なLLMの動向を厳選したメールのダイジェストを受け取ってください。
私にお金を払って、あなたにはもっと少ない手間で済ませましょう!
スポンサー&購読する



