NVIDIAとメリーランド大学の研究者がAudio Flamingo Next（AF-Next）を公開：超強力でオープンな大規模オーディオ言語モデル

MarkTechPost / 2026/4/14

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

NVIDIAとメリーランド大学の研究者が、Audio Flamingo Next（AF-Next）を公開しました。音声、環境音、音楽を対象に推論するための強力なオープン大規模オーディオ言語モデルとして位置づけられています。
この記事では、音声をマルチモーダル領域の一つとして捉えつつ、画像ベースのシステムに比べてその進展が遅れていることを強調し、堅牢で長尺なオーディオ理解を扱えるオープンモデルを構築する難しさを指摘しています。
AF-Nextは、そのギャップを埋める取り組みとして、より長い文脈にわたって高い能力を備えた音声-テキストの推論を可能にし、実世界での利用を見据えています。
「オープン」なリリースを重視することで、本研究はより広い研究者・開発者コミュニティによる実験や導入を加速させることを意図している可能性が高いです。

音声を理解することは、これまで常に、視覚に遅れをとっているマルチモーダルのフロンティアでした。画像と言語のモデルは実世界への展開に向けて急速にスケールしてきましたが、音声、環境音、そして音楽を——特に長い範囲にわたって——確実に推論できるオープンなモデルを構築することは、依然としてかなり難しいままです。NVIDIA とメリーランド大学の研究者たちは、いまその正面から直接挑戦しています […]

投稿 NVIDIA とメリーランド大学の研究者が Audio Flamingo Next（AF-Next）を公開：超強力でオープンな大規模オーディオ言語モデルは、最初に MarkTechPost に掲載されました。