テキスト翻訳で知られるDeepLが、今度はあなたの声も翻訳したいと考えている

TechCrunch / 2026/4/16

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageIndustry & Market Moves

要点

  • これまでテキスト翻訳で知られていたDeepLは、会議、モバイル/ウェブ上の会話、現場の従事者向けのグループ会話など、リアルタイムの場面を対象とした音声から音声への翻訳スイートを立ち上げました。
  • 同社は、開発者向けAPIも提供し、外部企業や開発者がDeepLの音声翻訳技術の上にカスタムの翻訳ワークフロー(例:コールセンターのサポート)を構築できるようにします。
  • DeepLの音声プロダクトは、音声の発話から翻訳後の再生までの遅延(待ち時間)を最小化することと、翻訳精度を維持することのトレードオフを重視しています。
  • ZoomおよびMicrosoft Teams向けのアドオンを用意しており、聞き手に対して翻訳した音声を提供するか、画面上にリアルタイム翻訳テキストを表示するかのいずれかを選べます。これらは現在、アーリーアクセスで利用可能です。
  • DeepLは、業界用語、企業名、個人名などのカスタム語彙にシステムが適応できるとしており、領域に特化した顧客サポートや業務運用における有用性の向上を目指しています。

文字ツールで最もよく知られる翻訳会社DeepLは、今日、音声から音声へ翻訳するスイートを発表しました。これは、専用アプリを通じて、最前線で働く人々向けに、会議やモバイル/Web上での会話、グループでの会話といったユースケースをカバーします。同社はさらに、コールセンターのようなカスタマイズされた用途のために、DeepLの技術の上に外部の開発者や企業が構築できるようにするAPIも提供します。

「テキストの翻訳に長年取り組んできたので、音声は私たちにとって自然な次のステップでした」と、DeepLのCEOであるJarek Kutylowski氏はTechCrunchのインタビューで語りました。「テキスト翻訳やドキュメント翻訳については相当なところまで到達しました。でも、リアルタイムの音声翻訳のための優れたプロダクトはないのではないかと思っていました。」

Kutylowski氏は、リアルタイム翻訳プロダクトを作る際の課題は、遅延の低減(誰かが話してから、翻訳された音声が再生されるまでの時間)と、正確な結果を維持することとのバランスを取ることにあると述べました。

DeepLは、ZoomやMicrosoft Teamsのようなプラットフォーム向けのアドオンをリリースします。聞き手は、ほかの人が母国語で話している間にリアルタイム翻訳を聞くことも、画面上でリアルタイム翻訳されたテキストに追従することもできます。このプログラムは現在早期アクセス段階で、同社は参加希望のために待機リストへの登録を行うよう、組織を募集しています。また、対面でも遠隔でも実施できるモバイルおよびWebベースの会話向け製品も用意しています。

DeepLでは、研修セッションやワークショップのような場でのグループ会話にも参加できます。参加者はQRコードを通じて参加可能です。

DeepLは、音声から音声への技術が、業界特有の用語や会社名、個人名といったカスタムの語彙を学習し、それに適応できるとも述べています。

Kutylowski氏は、AIが今後数年で顧客サービスのあり方を作り変えつつあると語りました。翻訳レイヤーが、採用も維持もコストがかかり、有資格のスタッフが不足している言語でも企業がサポートを提供する助けになると指摘しています。

Techcrunchイベント

Disruptで次の投資家、またはポートフォリオのスタートアップに出会おう


次の資金調達。次の採用。次の飛躍のチャンス。TechCrunch Disrupt 2026で見つけましょう。3日間、250回以上の戦術セッション、強力な顔合わせ、そして市場を形作るイノベーションが、10,000人以上の創業者、投資家、テックリーダーのもとに集まります。今すぐ登録して最大410ドル分を節約。

Disruptで次の投資家、またはポートフォリオのスタートアップに出会おう


次の資金調達。次の採用。次の飛躍のチャンス。TechCrunch Disrupt 2026で見つけましょう。3日間、250回以上の戦術セッション、強力な顔合わせ、そして市場を形作るイノベーションが、10,000人以上の創業者、投資家、テックリーダーのもとに集まります。今すぐ登録して最大410ドル分を節約。

サンフランシスコ、CA | 2026年10月13〜15日

同社は、音声から音声へのスタック全体を制御していると述べました。ただし現在のシステムは、まず発話をテキストに変換し、翻訳を適用し、その後それを音声へ再変換します。DeepLは、テキスト翻訳に長年取り組んできたため、翻訳品質において優位性があると考えています。今後は、テキスト工程を完全にスキップするエンドツーエンドの音声翻訳モデルの開発を目指しています。

DeepLは、この領域の隣接する部分で事業を進める、資金の潤沢な複数のスタートアップから競争に直面しています。Sanasは昨年、Quadrille CapitalとTeleperformanceから6,500万ドルを調達し、AIを使って話し手のアクセントをリアルタイムで変更します。主に狙っているのはコールセンターのエージェントです。

ドバイ拠点のCamb.AIは、メディアおよびエンターテインメント企業向けの音声合成と翻訳に注力し、Amazon Web Servicesと連携しています。彼らの動画コンテンツを大規模に吹き替え・ローカライズするのを支援しています。

Reddit共同創業者Alexis Ohanianの事務所Seven Seven Sixの支援を受けるPalabraは、意味と、話し手の元の声の両方を維持することを目的に設計されたリアルタイム音声翻訳エンジンを構築しています。これにより、Palabraは、いまDeepLが作ろうとしているものとより直接的に競合する立場になります。