AI Navigate

インサイト最新記事一覧 AI大全

広告

Omni-MMSI: アイデンティティ属性に基づく社会的相互作用理解に向けて

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、音声・映像・発話などの生データから、誰が何を話しているかといった「アイデンティティ（話者）属性つきの社会的手がかり」を認識し、発話者が誰を指しているか等を推論する新タスク「Omni-MMSI」を提案しています。
既存研究の多くが前処理された（オラクルな）手がかりに依存していたのに対し、Omni-MMSIはAIアシスタントが現実の生入力から認識・推論する難しさを反映しています。
既存パイプラインやマルチモーダルLLMは、信頼できる「アイデンティティ帰属（誰が話しているか等の割り当て）」が不足しているため、Omni-MMSIで性能が伸びないと指摘しています。

関連記事

Black Hat Asia

Black Hat Asia

AI Business

StrongSORT: DeepSORTが強くなって帰ってきた！アップグレードされた追尾モデル！

AI-SCHOLAR

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

日経XTECH

UnitreeのIPO

UnitreeのIPO

ChinaTalk

GIGABYTEのノートPCに内蔵されたAIコーディングアシスタントをご存じですか？GiMATE Coderに出会おう

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告