Tencent AI Labは、7B(70億)パラメータのエンドツーエンド・Large Audio Language Model(LALM)であるCovo-Audioをリリースしました。このモデルは、連続したオーディオ入力を直接処理し、単一のアーキテクチャ内でオーディオ出力を生成することで、音声処理と言語インテリジェンスを統合することを目的としています。システムアーキテクチャ Covo-Audioフレームワークは、モーダルをまたいだシームレスな相互作用を実現するために設計された4つの主要コンポーネントで構成されています。階層型[…]
この記事はTencent AI Open Sources Covo-Audio:リアルタイムの音声会話と推論のための7Bスピーチ言語モデルおよび推論パイプラインとして初めてMarkTechPostに掲載されました。