KoALa-Bench:韓国語の音声理解と忠実性を評価するための大規模オーディオ言語モデルベンチマーク

arXiv cs.CL / 2026/4/23

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文では、大規模オーディオ言語モデル(LALM)を対象に「韓国語の音声理解」と「忠実性」を評価する新しいベンチマークKoALa-Benchを提案しています。
  • KoALa-Benchは6つのタスクで構成されており、理解系としてASR(自動音声認識)、音声翻訳、音声QA、音声指示追従の4タスク、さらに音声モダリティを適切に活用・反映できているかを測る忠実性系の2タスクを含みます。
  • 韓国特有の知識を反映するため、韓国の大学修学能力試験(CSAT)に基づくリスニング問題や、韓国の文化領域に関する内容をベンチマークに取り入れています。
  • 6種類のLALMモデルに対して、ホワイトボックス評価とブラックボックス評価の両方で大規模な実験を行っています。
  • ベンチマーク、評価コード、公開リーダーボードは https://ksbench.github.io/Korean-Benchmark/ で提供され、非英語(韓国語)向けのLALM評価ベンチマーク不足を補うことを目指しています。

要旨: 大規模音声言語モデル(LALM)における最近の進展により、多言語の音声理解が可能になりました。しかし、LALMを評価するためのベンチマークは、英語以外の言語については依然として乏しく、韓国語はそのように十分に調査されていない事例の一つです。本論文では、韓国語の音声理解と音声忠実性を評価するための包括的なベンチマークであるKoALa-Benchを提案します。具体的に、KoALa-Benchは6つのタスクで構成されています。4つのタスクは、自動音声認識、音声翻訳、音声質問応答、音声指示追従を含む、基礎的な音声理解能力を評価します。一方、残りの2つのタスクは、いくつかのLALMがしばしば音声モダリティを十分に活用できないという観察に動機づけられた、音声忠実性を評価します。さらに、韓国固有の知識を反映するために、韓国の大学修学能力試験におけるリスニング問題、および韓国の文化領域を扱うコンテンツを本ベンチマークに組み込みます。白箱および黒箱の両方を含む6つのモデルに対して、広範な実験を実施します。ベンチマーク、評価コード、およびリーダーボードは https://ksbench.github.io/Korean-Benchmark/ で公開されています。