AI Navigate

Voxtral WebGPU:Transformers.jsを使用したブラウザ内完全リアルタイム音声文字起こし

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュースTools & Practical UsageModels & Research

要点

  • MistralはVoxtral-Mini-4B-Realtimeをリリースしました。この多言語対応の音声文字起こしモデルは13言語に対応し、500ミリ秒未満のレイテンシを実現しています。
  • Transformers.jsはこのモデルをサポートし、WebGPU技術を活用してブラウザ上でリアルタイム音声文字起こしを可能にしました。
  • この手法によりライブ字幕を完全にローカルで実行でき、サーバー側での処理が不要となり、プライバシー向上とレイテンシ削減が図れます。
  • デモとソースコードはHugging Face Spacesで公開されており、ユーザーは試用や統合が可能です。
  • これはWebGPUなどの最新ウェブ技術を用いて、クライアントデバイス上で効率的な大規模モデルを動作させる技術の進展を示しています。
Voxtral WebGPU: Real-time speech transcription entirely in your browser with Transformers.js

Mistralは最近、Voxtral-Mini-4B-Realtimeをリリースしました。これは13言語に対応し、500ミリ秒未満の遅延で動作する多言語リアルタイム音声文字起こしモデルです。本日、Transformers.jsにこのモデルのサポートを追加し、WebGPU上のブラウザ内で完全にローカルにライブ字幕を実現可能にしました。気に入っていただけると幸いです!

デモ(+ソースコード)へのリンク:https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU

提出者 /u/xenovatech
[link] [comments]