音声対応のワークフローを構築する企業には、本番レベルの書き起こし(トランスクリプション)に関して限られた選択肢しかありませんでした。データレジデンシーのリスクを伴う、クローズドなAPIか、あるいは実運用しやすさと引き換えに精度を犠牲にするオープンモデルです。Cohereの新しいオープンウェイトASRモデル「Transcribe」は、4つの主要な差別化要素――文脈の正確さ、レイテンシ、制御性、コスト――すべてで競争できるように設計されています。
Cohereは、Transcribeが精度において現在のリーダーを上回ると述べています。また、クローズドAPIとは異なり、組織自身のインフラ上で動かせる点も特徴です。
API経由、またはCohereのModel Vaultで「cohere-transcribe-03-2026」としてアクセス可能なCohereのTranscribeは、20億パラメータで、ライセンスはApache-2.0です。同社はTranscribeの平均単語誤り率(WER)がわずか5.42%であり、同種のモデルよりも誤りが少ないと述べました。
学習済みの言語は14言語です。英語、フランス語、ドイツ語、イタリア語、スペイン語、ギリシャ語、オランダ語、ポーランド語、ポルトガル語、中国語、日本語、韓国語、ベトナム語、アラビア語。なお、同社はモデルがどの中国語の方言で学習されたかは明示していません。
Cohereは「WERを最小化することに意図的に重点を置きつつ、生産投入(production readiness)を最優先の関心事として維持した」形でモデルを学習したと述べています。Cohereによれば、その結果は、企業が音声パワーのオートメーション、書き起こし(トランスクリプション)パイプライン、音声検索ワークフローに直接組み込めるモデルです。
本番パイプライン向けのセルフホスト型書き起こし
これまで、企業向けの書き起こしはトレードオフでした。クローズドAPIは正確さを提供する一方でデータをロックし、オープンモデルは制御性を提供するもののパフォーマンスで遅れを取りがちでした。MITライセンスの研究モデルとして登場したWhisperとは異なり、Transcribeはリリース時点から商用利用が可能で、組織自身のローカルGPUインフラ上で動かせます。初期の利用者は、この商用利用に対応したオープンウェイトのアプローチが、エンタープライズの導入にとって意味のあるものだと指摘しました。
同社が「モデルがローカルGPU向けの推論フットプリントをより管理しやすいものに拡張している」と述べているため、組織はTranscribeを自社のローカル環境のインスタンスに持ち込めます。さらに同社は、これが可能だったのは、モデルが「Paretoフロンティアを拡張し、最先端の精度(低WER)を実現しつつ、1B+パラメータのモデル群の中で最高クラスのスループット(高RTFx)を維持している」からだと説明しました。
Transcribeはどれほど優れているか
Transcribeは、OpenAIのWhisper(ChatGPTの音声機能を支える)や、数多くの大手小売ブランドが導入しているElevenLabsなど、音声モデルの定番を上回りました。現在、




