TR-EduVSum:教育ビデオ要約のための、トルコ語に特化したデータセットとコンセンサス(合意)フレームワーク

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、82本のデータ構造とアルゴリズム講義ビデオと3,281件の独立した人手による要約から構築した、新たなトルコ語に特化した教育ビデオ要約データセットTR-EduVSumを紹介する。
  • 複数の人手要約から意味ユニットを抽出し、埋め込みによってクラスタリングし、参加者間の合意(一致)を統計的にモデル化するAutoMUP(Automatic Meaning Unit Pyramid)というフレームワークを提案する。
  • AutoMUPは、合意に応じて意味ユニットに重み付けすることで、段階付けされた「ゴールドスタンダード」要約を生成し、最も合意度が高い構成を参照要約として定義する。
  • 実験では、AutoMUPの要約が、強力なLLMが生成した要約(例:Flash 2.5やGPT-5.1)と高い意味重なりを達成することが報告されており、このフレームワークが高品質なモデル出力に近づけることを示唆している。
  • アブレーション研究により、要約品質の主要な駆動要因がコンセンサスの重み付けとクラスタリングであることが示されており、著者らは本手法が低コストで他のトルク諸語にも一般化できると主張している。

要旨: 本研究は、トルコの教育ビデオに対する複数の人手による要約を基に、ゴールドスタンダードの要約を完全に自動かつ再現可能に生成するための枠組みを提示する。研究の範囲内で、 「データ構造とアルゴリズム」分野の82本のトルコ語の講義ビデオを含み、合計3281件の独立した人手要約を収録した新しいデータセットTR-EduVSumを作成した。既存のピラミッド型評価アプローチに触発されて、本研究では、AutoMUP(Automatic Meaning Unit Pyramid)手法を提案する。この手法は、複数の人手要約から合意(コンセンサス)に基づく内容を抽出する。AutoMUPは、埋め込みを用いて人手要約から抽出した意味ユニットをクラスタリングし、参加者間の合意を統計的にモデル化したうえで、合意の重み(コンセンサス重み)に基づいて段階付けされた要約を生成する。この枠組みにおいて、ゴールド要約は、人手要約全体で最も頻繁に支持された意味ユニットから構成される、最も高い合意度に基づく最高コンセンサスのAutoMUP構成に対応する。実験結果は、AutoMUPによる要約が、Flash 2.5やGPT-5.1のような堅牢なLLM(大規模言語モデル)要約と高い意味的重なりを示すことを明らかにしている。さらに、アブレーション研究は、要約品質の決定において合意の重みとクラスタリングが決定的な役割を果たすことを明確に示している。提案手法は、低コストで他のテュルク諸語にも一般化できる。