会議の有効性を見直す:時間軸に沿ったきめ細かな自動評価のためのベンチマークとフレームワーク
arXiv cs.CL / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この論文は、会議の有効性がしばしば事後アンケートに依存して単一の粗いスコアとして評価され、議論の時間的な変化を捉えられていない点を指摘しています。
- 目的達成の進捗率として有効性を定義し、会議内のトピックごとのセグメント単位で時間軸に沿って評価する、時間的に細かな評価パラダイムを提案しています。
- 著者らは、AMI Corpusの130会議から構築した「AMI Meeting Effectiveness(AMI-ME)」データセットを導入し、2,459件の人手アノテーション付きセグメントを収録しています。
- 大規模言語モデル(LLM)を“judge(審判)”として用い、各セグメントの有効性を会議全体の目標に照らしてスコアリングする自動評価フレームワークを開発し、複数の会議タイプで汎用性をベンチマークしています。
- さらに、生音声から有効性を推定するエンドツーエンド性能も評価し、データセットとコードは公開予定であるとしています。




