Audio AIは「聴く」時代へ。ローカルで動くLALMsをまとめて比較できるOSS「LALMsArena」を作った

Zenn / 4/23/2026

💬 OpinionSignals & Early TrendsTools & Practical UsageModels & Research

Key Points

  • ローカル環境で動作するLALMs(音声AI/LLM系)を「聴く」体験とともに活用する流れを背景に、比較・評価のためのOSS基盤「LALMsArena」を作成した。
  • LALMsArenaは複数のローカルLALMsをまとめて比較でき、実務者がモデル選定や検証を素早く進められることを狙っている。
  • 音声AI領域で重要になる“手元で動かす”前提(ローカル実行)に焦点を当て、導入障壁の低い検証環境を提供する。
  • 比較のためのOSSとして公開することで、同系統のツール/取り組みを促進し、評価・再現性の議論を進める意義がある。
はじめに こんにちは。普段は音データを pandas ライクに扱える OSS ライブラリ「wandas」を開発しています。wandas を作る中で Audio AI の世界が急速に変わってきていることに気づき、実際に触ってみました。 ここ最近、Audio AI の世界が急速に変わってきていると感じています。従来の音声認識(ASR)は「音声をテキストに変換して、それをテキスト LLM に渡す」という 2 段構えが当たり前でした。ところが最近では、音響信号をそのまま受け取って推論まで完結させる Large Audio Language Models(LALMs、大規模音声言語モデル) が...

Continue reading this article on the original site.

Read original →