Swiss Parliaments Corpus Re-Imagined (SPC_R): RAGベースの訂正と予測BLEUによる強化転写
arXiv cs.CL / 2026/3/13
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文は、公式プロトコルに沿って長時間にわたるスイス・ドイツ語討論を高品質な音声-テキストペアへ変換する、スイス議会コーパスの新しい長文リリースを発表します。
- パイプラインは、高計算設定の下で Whisper Large-v3 を用いて音声を標準ドイツ語へ転写し、その後、誤認識(特に固有名詞)を洗練させ、意味的完全性を評価する2段階の GPT-4o 修正を適用します。
- セグメントは Predicted BLEU スコアと GPT-4o の評価を用いてフィルタリングされ、801 時間の音声が得られ、そのうち 555 時間が品質管理を通過しました。
- 元の文レベルのリリースと比較して SPC_R は BLEU を6ポイント改善しており、堅牢な ASR、LLM ベースの訂正、データ駆動型フィルタリングを組み合わせることで、低リソース・ドメイン特化コーパスの有効性を示しています。
本論文は、スイス議会コーパスの新しい長文リリースを提示します。複数時間にわたるスイス・ドイツ語の討論セッションを、それぞれ公式セッションプロトコルに合わせて高品質な音声-テキストペアへ変換します。私たちのパイプラインは、公式セッションの全音声を Whisper Large-v3 を用いて高計算設定下で標準ドイツ語へ転写することから始めます。次に、2段階の GPT-4o 修正プロセスを適用します。第一に、GPT-4o は生の Whisper 出力と公式プロトコルを取り込み、誤認識、主に固有名詞を洗練させます。第二に、別の GPT-4o のパスが各修正済みセグメントを意味的完全性の観点で評価します。Predicted BLEU スコア(Whisper の平均トークン対数確率に基づく)と GPT-4o の評価スコアが閾値を下回るセグメントはすべてフィルタリングします。最終コーパスは801 時間の音声を含み、そのうち555 時間が品質管理を通過します。元の文レベルの SPC リリースと比較して、長形式データセットは BLEU を6ポイント改善しており、堅牢な ASR、LLM ベースの訂正、およびデータ駆動型フィルタリングを組み合わせることで、低リソース・ドメイン特化の音声コーパスに対する力を示しています。

