音声を理解することは、これまで常に、視覚に遅れをとっているマルチモーダルのフロンティアでした。画像と言語のモデルは実世界への展開に向けて急速にスケールしてきましたが、音声、環境音、そして音楽を——特に長い範囲にわたって——確実に推論できるオープンなモデルを構築することは、依然としてかなり難しいままです。NVIDIA とメリーランド大学の研究者たちは、いまその正面から直接挑戦しています […]
投稿 NVIDIA とメリーランド大学の研究者が Audio Flamingo Next(AF-Next)を公開:超強力でオープンな大規模オーディオ言語モデル は、最初に MarkTechPost に掲載されました。




