CNSL-bench:中国語の全国手話におけるMLLMの手話理解能力をベンチマークする

arXiv cs.AI / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、MLLM(マルチモーダル大規模言語モデル)の中国語の全国手話(CNSL)理解を評価するための、包括的なベンチマーク「CNSL-bench」を提案する。
  • CNSL-benchは、地域ごとの異形や非標準的なバリエーションによる曖昧さを抑えるため、公式の「National Common Sign Language Dictionary」に基づいて設計されている。
  • テキスト説明・画像・手話動画の複数モダリティを整合させて提供し、空中書き、指文字、(中国語の)マニュアルアルファベットなど、発話(手指動作)の多様性も扱う。
  • 21の最新のオープンソースおよびプロプライエタリなMLLMを用いて評価した結果、人間の性能に比べて依然として大きく劣っており、その差は入力モダリティや手指動作の種類によって体系的に異なることが分かった。
  • 分析により、推論能力の改善だけでは解消されない制約が残っており、さらにモデルごとに指示追従の頑健性が大きく異なることが示唆される。

Abstract

手話研究は、大規模言語モデル(LLM)の進歩により大きな成果を上げてきました。しかし、特にマルチモーダルな文脈において、手話を理解するというLLMの本質的な能力は、十分に調査されていません。この制限に対処するために、本稿では、手話理解におけるマルチモーダル大規模言語モデル(MLLMs)を評価するための、初の包括的な中国手話ベンチマークであるCNSL-benchを提案します。提案するCNSL-benchは、次の特徴を持ちます。1)権威ある根拠:公式に標準化された\textit{National Common Sign Language Dictionary}に基づいており、地域的または非正準的な変種による曖昧さを緩和し、一貫した意味定義を保証します。2)マルチモーダル対応:対応するテキスト記述、例示画像、手話動画を提供します。3)構音多様性:空中書き、指文字綴り、中国の手動アルファベットを含む主要な手指構音(マニュアル)形式にまたがって、きめ細かな分析を可能にします。CNSL-benchを用いて、最新の21のオープンソースおよび商用(プロプライエタリ)のMLLMを広範に評価しました。その結果、マルチモーダルモデリングの最近の進歩にもかかわらず、現在のMLLMは人間のパフォーマンスに比べて依然として大幅に劣っており、入力モダリティと手指構音形式の双方にわたって体系的な差異が見られることが明らかになりました。さらに追加の診断的分析により、推論の改善を超えてなお複数のパフォーマンス上の制限が持続しており、指示追従の頑健性はモデル間で大きく異なることが示唆されました。