エンタープライズAI企業のコヒア(Cohere)は木曜日、自社初の音声モデルを発表しました。Transcribeは、メモ取りや音声分析のような用途に使えるオープンソースの自動音声認識(ASR)モデルです。
パラメータ数はわずか20億(2 billion)と比較的軽量で、自社ホスティングしたい人向けに、コンシューマー向けGPUでの利用を想定しています。現在、14の言語に対応しています。英語、フランス語、ドイツ語、イタリア語、スペイン語、ポルトガル語、ギリシャ語、オランダ語、ポーランド語、中国語、日本語、韓国語、ベトナム語、アラビア語です。
コヒアは、TranscribeがHugging Face Open ASRリーダーボードにおいて、Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2、Qwen3-ASR-1.7B Speechのようなモデルを上回っていると述べています。平均単語誤り率(WER)は5.42で、ベンチマーク上で他のどのモデルよりも低い数値を達成しました。
同社によると、人間の評価者が正確性、一貫性、使いやすさの観点からTranscribeの文字起こしを評価した際、他のモデルに対するTranscribeの平均勝率は61%でした。とはいえ、モデルがポルトガル語、ドイツ語、スペイン語を文字起こしする必要があった場合には、競合に後れを取りました。
コヒアは、Transcribeが1分で525分分の音声を処理できるとしています。これは、そのカテゴリのモデルとしては高い性能です。
同社はTranscribeを、同社のエンタープライズ向けエージェント・オーケストレーション・プラットフォームであるNorthに統合する計画です。また、このモデルを同社のAPI経由で無料で提供しています。さらに、このモデルは、コヒアのマネージド推論プラットフォームであるModel Vaultでも利用可能になります。
音声認識モデルは、GranolaやWispr Flowのようなメモ取り・書き起こしアプリへの需要が高まるにつれて、ますます人気が高まっています。
Disrupt 2026:テック・エコシステムを1つの部屋に
次のラウンド。次の採用。次のブレイクのチャンス。 TechCrunch Disrupt 2026では、10,000人以上のファウンダー、投資家、テックリーダーが3日間集まり、250回以上の戦術的セッション、強力な紹介、そして市場を形作る革新に出会えます。今すぐ登録して最大400ドルを節約しましょう。
TechCrunch Founder Summitで最大300ドルまたは30%オフ
1,000人以上のファウンダーと投資家が、成長、実行、そして現実世界でのスケールに焦点を当てた終日プログラムとしてTechCrunch Founder Summit 2026に集結します。業界を形作ってきたファウンダーや投資家から学びましょう。同じような成長段階を歩む仲間とつながりましょう。すぐに適用できる戦術を持ち帰れます。
オファーは3月13日まで。
今年の初め、コヒアは投資家に対し、2025年の年間経常収益(ARR)が2億4,000万ドルに達していると伝えていたと報じられています。また、最高経営責任者(CEO)のエイダン・ゴメス(Aidan Gomez)が、「同社は『まもなく』上場する可能性がある」との趣旨で述べたとされています。