TencentがCovo-Audioをオープンソース化:リアルタイムの音声対話と推論のための7Bスピーチ言語モデルおよび推論パイプライン

MarkTechPost / 2026/3/26

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • Tencent AI Labは、音声処理と言語インテリジェンスを統合することを目的とした、7BパラメータのエンドツーエンドLarge Audio Language Model「Covo-Audio」をオープンソース化しました。
  • このモデルは、連続した音声を入力として受け取り、単一のアーキテクチャ内で直接音声出力を生成するよう設計されており、リアルタイム音声会話機能を対象としています。
  • Covo-Audioのフレームワークは、音声認識と生成的推論の間でシームレスなクロスモーダル相互作用を可能にすることを意図した4つの主要コンポーネントで構成されています。
  • 併せて、リアルタイム音声対話および推論タスクに対応するための、低遅延かつエンドツーエンド動作を支える推論パイプラインが提供されています。

Tencent AI Labは、7B(70億)パラメータのエンドツーエンド・Large Audio Language Model(LALM)であるCovo-Audioをリリースしました。このモデルは、連続したオーディオ入力を直接処理し、単一のアーキテクチャ内でオーディオ出力を生成することで、音声処理と言語インテリジェンスを統合することを目的としています。システムアーキテクチャ Covo-Audioフレームワークは、モーダルをまたいだシームレスな相互作用を実現するために設計された4つの主要コンポーネントで構成されています。階層型[…]

この記事はTencent AI Open Sources Covo-Audio:リアルタイムの音声会話と推論のための7Bスピーチ言語モデルおよび推論パイプラインとして初めてMarkTechPostに掲載されました。