| 昨日、Cohereは最初の音声認識(speech-to-text)モデルをリリースしました。このモデルは現在、OpenASRのリーダーボードでトップに立っています(英語向けですが、このモデルは14の異なる言語をサポートしています)。 そこで、これ用のWebGPUデモを作ることにしました。Transformers.jsを使って、モデルをブラウザ上で完全にローカルで動かします。気に入っていただければ幸いです! デモへのリンク(+ソースコード): https://huggingface.co/spaces/CohereLabs/Cohere-Transcribe-WebGPU [link] [comments] |
Cohere Transcribe WebGPU: ブラウザで利用できる最先端の多言語音声認識
Reddit r/LocalLLaMA / 2026/3/28
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- Cohereは最初の音声からテキストへのモデルをリリースしました。報告によれば、このモデルは(少なくとも英語において)OpenASRリーダーボードのトップにいる一方で、14言語に対応しています。
- 開発者がWebGPUのデモを構築し、Transformers.jsを使って書き起こしモデルをブラウザ上で完全にローカルに実行できるようにしています。
- デモとそのソースコードはHugging Face Spacesで公開されており、他の人も同様のクライアントサイド音声認識体験を試したり、構築したりできます。
- 今回のリリースは、高性能な多言語ASRモデルをオンデバイスで動かすことが現実的になりつつあることを強調しており、プライバシーの向上や、ブラウザベースのアプリにおけるレイテンシの低減につながります。




