Omni-MMSI: Toward Identity-attributed Social Interaction Understanding
arXiv cs.CV / 4/2/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 本論文は、音声・映像・発話などの生データから、誰が何を話しているかといった「アイデンティティ(話者)属性つきの社会的手がかり」を認識し、発話者が誰を指しているか等を推論する新タスク「Omni-MMSI」を提案しています。
- 既存研究の多くが前処理された(オラクルな)手がかりに依存していたのに対し、Omni-MMSIはAIアシスタントが現実の生入力から認識・推論する難しさを反映しています。
- 既存パイプラインやマルチモーダルLLMは、信頼できる「アイデンティティ帰属(誰が話しているか等の割り当て)」が不足しているため、Omni-MMSIで性能が伸びないと指摘しています。
Related Articles

Black Hat Asia
AI Business

Unitree's IPO
ChinaTalk

Did you know your GIGABYTE laptop has a built-in AI coding assistant? Meet GiMATE Coder 🤖
Dev.to

Benchmarking Batch Deep Reinforcement Learning Algorithms
Dev.to
A bug in Bun may have been the root cause of the Claude Code source code leak.
Reddit r/LocalLLaMA