AI Navigate

コーパス作成における半自動文字起こしは有用か?KIParlaコーパスに関する予備的考察

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論は、話し言葉のイタリア語資源であるKIParlaコーパスの文字起こしワークフローにおける自動音声認識(ASR)の利用を分析する。
  • 二段階の実験で、異なる専門性を持つ11人の書き起こし者が、3種類の会話タイプにわたる同一の音声セグメントについて、手動起こしとASR支援起こしの両方を作成した。
  • 結果は、ASR支援ワークフローが文字起こしの速度を向上させる可能性を示す一方で、全体的な正確性を一貫して改善するものではなく、結果はワークフローの構成、会話タイプ、アノテータの経験に依存していることを示している。
  • 本研究は、アライメントベースの指標、記述統計、統計モデリングを組み合わせ、アノテータとワークフロー間の文字起こし挙動を監視している。
  • 制約はあるものの、タスク特有のファインチューニングによって支援される可能性があるASR支援の文字起こしは、KIParlaに統合してコーパス作成を加速しつつ、文字起こしの品質を損なわない可能性がある。