会議の有効性を見直す：時間軸に沿ったきめ細かな自動評価のためのベンチマークとフレームワーク

arXiv cs.CL / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、会議の有効性がしばしば事後アンケートに依存して単一の粗いスコアとして評価され、議論の時間的な変化を捉えられていない点を指摘しています。
目的達成の進捗率として有効性を定義し、会議内のトピックごとのセグメント単位で時間軸に沿って評価する、時間的に細かな評価パラダイムを提案しています。
著者らは、AMI Corpusの130会議から構築した「AMI Meeting Effectiveness（AMI-ME）」データセットを導入し、2,459件の人手アノテーション付きセグメントを収録しています。
大規模言語モデル（LLM）を“judge（審判）”として用い、各セグメントの有効性を会議全体の目標に照らしてスコアリングする自動評価フレームワークを開発し、複数の会議タイプで汎用性をベンチマークしています。
さらに、生音声から有効性を推定するエンドツーエンド性能も評価し、データセットとコードは公開予定であるとしています。

Abstract

会議の有効性を評価することは、組織の生産性を向上させるうえで重要です。現行のアプローチは事後アンケートに依存しており、会議全体に対して1つの粗いスコアを得るにとどまります。手動による評価への依存は、本質的にスケーラビリティ、コスト、再現性の面で限界があります。さらに、単一のスコアでは、協調的な議論の動的な性質を捉えきれません。私たちは、新しい基準と時間的にきめ細かなアプローチに基づく、会議有効性を評価するための新しいパラダイムを提案します。有効性を「時間に対する客観的達成の割合」として定義し、会議中の個々の話題セグメントに対してそれを評価します。このタスクを支えるために、AMI Meeting Effectiveness（AMI-ME）データセットを導入します。これは、130件のAMIコーパス会議から得られた2,459の人手アノテーション付きセグメントを含む、新しいメタ評価データセットです。加えて、各セグメントの有効性を、会議全体の目的に対する相対的な指標としてスコア付けするために、大規模言語モデル（LLM）を審判として用いる自動的な有効性評価フレームワークも開発します。大規模な実験を通じて、この新しいタスクに対する包括的なベンチマークを確立し、ビジネスシナリオから構造化されていない議論まで、異なる会議タイプにわたるフレームワークの汎化性を評価します。さらに、生の音声から開始して端から端までの性能をベンチマーク化し、完全なシステムの能力を測定します。私たちの結果は、フレームワークの有効性を裏付け、会議分析および多者対話に関する今後の研究を促進するための強力なベースラインを提供します。私たちのデータセットとコードは公開されます。AMI-MEデータセットと自動評価フレームワークは、こちらのURLで利用可能です。