Swiss Parliaments Corpus Re-Imagined (SPC_R): RAGベースの訂正と予測BLEUによる強化転写

arXiv cs.CL / 2026/3/13

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

本論文は、公式プロトコルに沿って長時間にわたるスイス・ドイツ語討論を高品質な音声-テキストペアへ変換する、スイス議会コーパスの新しい長文リリースを発表します。
パイプラインは、高計算設定の下で Whisper Large-v3 を用いて音声を標準ドイツ語へ転写し、その後、誤認識（特に固有名詞）を洗練させ、意味的完全性を評価する2段階の GPT-4o 修正を適用します。
セグメントは Predicted BLEU スコアと GPT-4o の評価を用いてフィルタリングされ、801 時間の音声が得られ、そのうち 555 時間が品質管理を通過しました。
元の文レベルのリリースと比較して SPC_R は BLEU を6ポイント改善しており、堅牢な ASR、LLM ベースの訂正、データ駆動型フィルタリングを組み合わせることで、低リソース・ドメイン特化コーパスの有効性を示しています。

本論文は、スイス議会コーパスの新しい長文リリースを提示します。複数時間にわたるスイス・ドイツ語の討論セッションを、それぞれ公式セッションプロトコルに合わせて高品質な音声-テキストペアへ変換します。私たちのパイプラインは、公式セッションの全音声を Whisper Large-v3 を用いて高計算設定下で標準ドイツ語へ転写することから始めます。次に、2段階の GPT-4o 修正プロセスを適用します。第一に、GPT-4o は生の Whisper 出力と公式プロトコルを取り込み、誤認識、主に固有名詞を洗練させます。第二に、別の GPT-4o のパスが各修正済みセグメントを意味的完全性の観点で評価します。Predicted BLEU スコア（Whisper の平均トークン対数確率に基づく）と GPT-4o の評価スコアが閾値を下回るセグメントはすべてフィルタリングします。最終コーパスは801 時間の音声を含み、そのうち555 時間が品質管理を通過します。元の文レベルの SPC リリースと比較して、長形式データセットは BLEU を6ポイント改善しており、堅牢な ASR、LLM ベースの訂正、およびデータ駆動型フィルタリングを組み合わせることで、低リソース・ドメイン特化の音声コーパスに対する力を示しています。

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

note

提言：CAFという“型”で成功の再現性を高める

日経XTECH

Llama 3.1 8B と CrewAI を用いて、私の RTX 5070 Ti 上で100% ローカルに動作する自律的なAI裁判所を構築しました。エージェント同士は文脈に基づく協力を通じて互いに議論します。

Reddit r/LocalLLaMA

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

Dev.to

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

Dev.to

Swiss Parliaments Corpus Re-Imagined (SPC_R): RAGベースの訂正と予測BLEUによる強化転写

要点

関連記事

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

提言：CAFという“型”で成功の再現性を高める

Llama 3.1 8B と CrewAI を用いて、私の RTX 5070 Ti 上で100% ローカルに動作する自律的なAI裁判所を構築しました。エージェント同士は文脈に基づく協力を通じて互いに議論します。

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer