CohereのオープンウェイトASRモデル、単語誤り率5.4%を達成 — 本番のパイプラインで音声APIの置き換えが可能な水準

VentureBeat / 2026/3/31

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

要点

Cohereは、エンタープライズ向けの音声文字起こしワークフローを想定した新しいオープンウェイトASRモデル「Transcribe」を発表しました。精度に加え、低遅延やコストなどの本番運用上の制約も重視しています。
同社はTranscribeが平均単語誤り率（WER）5.42%を達成していると主張しており、生産パイプラインにおいてクローズドな音声APIを置き換えられる可能性があるほど高い精度だと位置付けています。
TranscribeはApache-2.0で商用ライセンスされており、組織自身のインフラ上でセルフホスト可能です。これによりデータ主権とデプロイ容易性に関するトレードオフに対応します。
モデルは2B（20億）パラメータを持ち、14言語をサポートしています。主要なヨーロッパ言語に加え、中国語、日本語、韓国語、ベトナム語、アラビア語（中国語の方言は不明）も含まれます。
Hugging FaceのASRリーダーボードやその他のテスト済みデータセットにおいて、CohereはTranscribeがWhisper Large v3やElevenLabs Scribe v2といったモデルに対してリードする、または高い性能を示すと報告しています。

音声対応のワークフローを構築する企業には、本番レベルの書き起こし（トランスクリプション）に関して限られた選択肢しかありませんでした。データレジデンシーのリスクを伴う、クローズドなAPIか、あるいは実運用しやすさと引き換えに精度を犠牲にするオープンモデルです。Cohereの新しいオープンウェイトASRモデル「Transcribe」は、4つの主要な差別化要素――文脈の正確さ、レイテンシ、制御性、コスト――すべてで競争できるように設計されています。

Cohereは、Transcribeが精度において現在のリーダーを上回ると述べています。また、クローズドAPIとは異なり、組織自身のインフラ上で動かせる点も特徴です。

API経由、またはCohereのModel Vaultで「cohere-transcribe-03-2026」としてアクセス可能なCohereのTranscribeは、20億パラメータで、ライセンスはApache-2.0です。同社はTranscribeの平均単語誤り率（WER）がわずか5.42%であり、同種のモデルよりも誤りが少ないと述べました。

学習済みの言語は14言語です。英語、フランス語、ドイツ語、イタリア語、スペイン語、ギリシャ語、オランダ語、ポーランド語、ポルトガル語、中国語、日本語、韓国語、ベトナム語、アラビア語。なお、同社はモデルがどの中国語の方言で学習されたかは明示していません。

Cohereは「WERを最小化することに意図的に重点を置きつつ、生産投入（production readiness）を最優先の関心事として維持した」形でモデルを学習したと述べています。Cohereによれば、その結果は、企業が音声パワーのオートメーション、書き起こし（トランスクリプション）パイプライン、音声検索ワークフローに直接組み込めるモデルです。

本番パイプライン向けのセルフホスト型書き起こし

これまで、企業向けの書き起こしはトレードオフでした。クローズドAPIは正確さを提供する一方でデータをロックし、オープンモデルは制御性を提供するもののパフォーマンスで遅れを取りがちでした。MITライセンスの研究モデルとして登場したWhisperとは異なり、Transcribeはリリース時点から商用利用が可能で、組織自身のローカルGPUインフラ上で動かせます。初期の利用者は、この商用利用に対応したオープンウェイトのアプローチが、エンタープライズの導入にとって意味のあるものだと指摘しました。

同社が「モデルがローカルGPU向けの推論フットプリントをより管理しやすいものに拡張している」と述べているため、組織はTranscribeを自社のローカル環境のインスタンスに持ち込めます。さらに同社は、これが可能だったのは、モデルが「Paretoフロンティアを拡張し、最先端の精度（低WER）を実現しつつ、1B+パラメータのモデル群の中で最高クラスのスループット（高RTFx）を維持している」からだと説明しました。