Au-M-ol:医療音声と言語理解のための統一モデル

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Au-M-olは、大規模言語モデル(LLM)に音声処理を拡張し、医療音声をより適切に理解するための新しいマルチモーダル・アーキテクチャです。
  • このモデルは、医療特有の音響特徴を抽出する音声エンコーダ、音声特徴をLLMの入力空間へ写像する適応レイヤ、転記と臨床言語理解を行う事前学習済みLLMという3つの要素で構成されます。
  • 医療向け文字起こしタスクの実験では、最先端のベースラインに比べてWord Error Rate(WER)が56%低下しました。
  • さらに、ノイズの多い環境、領域特有の専門用語、話者の違いといった難しい条件でも良好で、実運用での信頼性が示唆されます。
  • 総じて、Au-M-olは臨床ASRや文脈を考慮した音声コンテンツ理解に有望な候補と位置づけられます。

Abstract

本研究では、音声処理を統合してLarge Language Models(LLM)を拡張する新しいマルチモーダルアーキテクチャであるAu-M-olを提案します。本モデルは、自動音声認識(ASR)のような臨床的に重要なタスクにおける性能の向上を目的としています。Au-M-olは主に3つのコンポーネントから構成されます:(1)医療音声から豊かな音響特徴を抽出する音声エンコーダ、(2)音声特徴をLLMの入力空間へ写像する適応層、(3)転写および臨床言語理解を行う事前学習済みLLMです。この設計により、モデルは話された医療内容を直接解釈できるため、精度と頑健性の両方が向上します。実験では、Au-M-olは医療転写タスクにおいて最先端のベースラインに比べてWord Error Rate(WER)を56\%低減します。また、本モデルは、雑音環境、領域固有の専門用語、話者によるばらつきといった、難しい条件下でも良好に動作します。これらの結果は、信頼性の高いかつ文脈に配慮した音声理解が不可欠である実世界の臨床応用において、Au-M-olが有力な候補であることを示唆しています。