Omni-MMSI: アイデンティティ属性に基づく社会的相互作用理解に向けて
arXiv cs.CV / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、音声・映像・発話などの生データから、誰が何を話しているかといった「アイデンティティ(話者)属性つきの社会的手がかり」を認識し、発話者が誰を指しているか等を推論する新タスク「Omni-MMSI」を提案しています。
- 既存研究の多くが前処理された(オラクルな)手がかりに依存していたのに対し、Omni-MMSIはAIアシスタントが現実の生入力から認識・推論する難しさを反映しています。
- 既存パイプラインやマルチモーダルLLMは、信頼できる「アイデンティティ帰属(誰が話しているか等の割り当て)」が不足しているため、Omni-MMSIで性能が伸びないと指摘しています。

