要旨: ブロードキャストテレビのコンテンツに対する自動的な意味論的注釈付けは、構造化された映像・音声の構成、領域固有の編集上のパターン、厳格な運用上の制約を同時に扱う必要があるため、独特の課題を提示します。マルチモーダル大規模言語モデル(MLLMs)は汎用的な動画理解において強力な能力を示しているものの、ブロードキャスト特有の設定におけるパイプラインアーキテクチャや入力構成間での比較効果は、実証的に十分に特徴づけられていません。本論文では、イタリアの文脈でブロードキャストテレビニュースに適用されるマルチモーダル注釈パイプラインを体系的に評価します。4つの意味次元にまたがってラベル付けされたクリップからなる領域固有のベンチマークを構築します。すなわち、視覚環境の分類、トピックの分類、センシティブコンテンツ検出、固有表現認識です。Gemini 3.0 Pro、LLaMA 4 Maverick、Qwen-VLの各バリアント、Gemma 3を含む9つのフロンティアモデルに対して、入力戦略を段階的に拡充しつつ評価します。入力戦略には、視覚信号、自動音声認識、話者ダイアライゼーション、メタデータを組み合わせます。実験結果は、動画入力による改善がモデル依存性が強いことを示しています。より大きなモデルは時間的な連続性を効果的に活用できる一方で、より小さなモデルは拡張されたマルチモーダル文脈のもとで性能が低下します。これは、トークン過負荷(token overload)によるものと考えられます。ベンチマークに加えて、選定したパイプラインを14の放送番組の全エピソードに展開し、イタリアのメディア企業が提供する正規化された視聴者計測データと、分単位の注釈を統合しました。この統合により、トピック単位の視聴者の感度と世代別のエンゲージメントの隔たりとの相関分析が可能となり、提案フレームワークがコンテンツに基づく視聴者分析において運用上実行可能であることを示します。
コンテンツから視聴者へ:放送テレビ向けマルチモーダル注釈フレームワーク
arXiv cs.CV / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、イタリアの放送テレビを対象に、視覚環境、トピック分類、センシティブコンテンツ検出、固有表現認識に焦点を当てたマルチモーダル意味注釈パイプラインを提案し、実証的に評価する。
- ドメイン固有のベンチマークを構築し、ビデオ、ASR、話者ダイアライゼーション、メタデータなどを段階的に強化した入力を用いて、9つの最先端マルチモーダルモデル(Gemini 3.0 Pro、LLaMA 4 Maverick、Qwen-VLの各バリアント、Gemma 3を含む)に対して2種類のパイプラインアーキテクチャを検証する。
- 結果は、ビデオ入力の有益性がモデル依存であることを示す。大規模モデルは時間的な連続性をより効果的に活用する一方、小規模モデルはマルチモーダル文脈を拡張すると劣化する。これは、トークン過負荷による可能性が高い。
- 評価にとどまらず、著者らは選定したパイプラインを14本の完全な放送エピソードに適用し、分単位の意味注釈を、イタリアのメディア企業による正規化された視聴者計測データと突合する。
- 統合データセットにより、トピック単位の視聴者感度と世代間のエンゲージメント差異との相関分析が可能になり、コンテンツから視聴者への分析としての運用可能性が示される。



