提供: Teleport — Teleport Beamsで数秒でエージェントをあなたのインフラに接続します。内蔵されたアイデンティティ。秘密情報ゼロ。 早期アクセスを取得
2026年4月12日
Rahim Nathwaniからのヒントのおかげで、macOS上で、MLXと mlx-vlm を使い、10.28 GBの Gemma 4 E2Bモデル によって音声ファイルを文字起こしするための uv run レシピはこちらです:
uv run --python 3.13 --with mlx_vlm --with torchvision --with gradio \
mlx_vlm.generate \
--model google/gemma-4-e2b-it \
--audio file.wav \
--prompt "この音声を文字起こししてください" \
--max-tokens 500 \
--temperature 1.0
それをこの14秒の.wavファイルで試してみたところ、次のような出力が得られました:
ここにあるのは簡単なボイスメモです。MLX VLMで試してみたいです。Gemmaで文字起こしできるかどうか、そしてそれがどう動くのかを見てみるだけです。
(本当は「ここ右にあるのは…」と「…どれだけうまく動くのか」だったはずですが、「front(前)」や「how that works(それがどう動くか)」として誤解された理由が分からなくもないです。)
2026年4月12日 2026年4月12日 に 11:57 pm に投稿
最近の記事
これはSimon Willisonによる2026年4月12日に投稿されたノートです。
python 1243 ai 1957 generative-ai 1737 llms 1704 uv 92 mlx 42 gemma 14 speech-to-text 17月次ブリーフィング
$10/月で私をスポンサーし、今月の最も重要なLLMの動向を厳選したメールのダイジェストを受け取ってください。
少ない手間で済むように、あなたに代わって送ります!
スポンサー&購読



