Team LEYA 第10回 ABAW コンペティションにおけるマルチモーダル曖昧さ/躊躇認識アプローチ
arXiv cs.AI / 2026/3/16
📰 ニュースModels & Research
要点
- 本論文は、場面・顔・音声・テキストの情報を統合した動画レベルの曖昧さ/躊躇認識のマルチモーダル手法を提案する。
- 場面ダイナミクスには VideoMAE を、感情ベースの顔埋め込みを統計的プーリングで、音声には EmotionWav2Vec2.0 に Mamba 時系列エンコーダを組み合わせ、テキストにはファインチューニング済みの Transformer モデルを用いて、プロトタイプを拡張したマルチモーダル融合を行う。
- BAH コーパスで、マルチモーダル融合は単一モーダルのベースラインを上回り、最良の融合モデルで平均 MF1 が 83.25%、プロトタイプ拡張モデルのアンサンブルを用いた最終テスト性能は 71.43% を達成した。
- 結果は、制約のない動画における正確な曖昧さ/躊拒認識のためには、複数の手掛かりを組み合わせ、堅牢な融合戦略を用いることの重要性を強調している。
関連記事
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築
Reddit r/MachineLearning
DuckLLM 1.0 — 私の初めてのモデルを紹介します!
Reddit r/LocalLLaMA
FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。
Reddit r/LocalLLaMA
高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]
Reddit r/MachineLearning