英語・ドイツ語・中国語における多言語吃音イベント検出

arXiv cs.CL / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、4つのコーパスから得られた注釈付きデータを用いて、英語・ドイツ語・中国語の音声に対するマルチラベルの吃音イベント検出システムを提案する。
多言語かつ複数コーパスの例から学習することで、吃音の言語非依存的な特徴を捉え、より頑健な言語間性能を目指す。
実験の結果、多言語で学習したモデルは従来手法と同等の性能に到達し、場合によってはそれを上回ることが示される。
著者らは、吃音が言語をまたいで一貫性を持つことの証拠として結果を解釈し、言語非依存の自動検出の実現可能性を支持する。
全体として、本研究は多言語データを活用することで、吃音検出システムの汎化性能と信頼性を向上できることを示している。

アブストラクト: 本論文は、英語・ドイツ語・マンダリンの多言語データに対して、多コーパスで訓練されたマルチラベル吃音検出システムを提示する。3つの言語と4つのコーパスから注釈付きの吃音データを活用することで、当該モデルは吃音の言語非依存的な特徴を捉え、言語的な文脈をまたいだ頑健な検出を可能にする。実験結果は、多言語での訓練が先行システムと同等の性能を達成し、場合によってはそれを上回ることを示している。これらの知見は、吃音が言語横断的な一貫性を示すことを示唆しており、言語に依存しない検出システムの開発を後押しする。本研究は、自動化された吃音検出における汎化性と信頼性を向上させるために多言語データを用いることの実現可能性と利点を実証する。

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Dev.to

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

Dev.to

英語・ドイツ語・中国語における多言語吃音イベント検出

要点

関連記事

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer