AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

Voice of India：インドにおける現実世界の音声認識のための大規模ベンチマーク

arXiv cs.CL / 2026/4/22

📰 ニュースModels & Research

原文を読む →

共有:

要点

インドの各言語に対する現実世界の音声認識を評価することを目的に、台本のない電話会話を用いたクローズドソースのベンチマーク「Voice of India」を提示しています。
15の主要言語を139の地域クラスターにまたがって収録し、306,230の発話（合計536時間）を36,691人の話者から集め、実際の表記ゆれを反映した転写を含めています。
指定データに特化した過学習を抑え、さらに単一リファレンスのWERがインド諸言語やコードミックス（英語由来語の非標準表記を含む）で自然な揺れを不公平に罰してしまう点への改善を狙っています。
地域（地区）レベルでの性能差に加えて、音質、話速、性別、デバイス種別などの要因ごとに分析し、現行ASRが弱い領域を明らかにしています。
最終的に、多様な地域や収録環境でIndic ASRを改善するための示唆を提供しています。

関連記事

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

AI-SCHOLAR

イーロン・マスク氏率いるSpaceX、AIエディタ「Cursor」の買収権を獲得　AIモデル開発で協力も

イーロン・マスク氏率いるSpaceX、AIエディタ「Cursor」の買収権を獲得　AIモデル開発で協力も

ITmedia AI+

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

Dev.to

HNHN：ハイパーエッジ・ニューロンを備えたハイパーグラフ・ネットワーク

HNHN：ハイパーエッジ・ニューロンを備えたハイパーグラフ・ネットワーク

Dev.to

Anthropicの「Mythos」がサイバーセキュリティ不安をあおる——中国にとっての意味は？

Anthropicの「Mythos」がサイバーセキュリティ不安をあおる——中国にとっての意味は？

SCMP Tech

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告