MetaDent：歯科向け視覚言語モデルのための臨床画像のラベリング

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

MetaDentは、歯科領域における視覚言語モデル（VLMs）で必要とされる細粒度の注釈付きデータセットとベンチマークの不足を解決するため、複数ソースから収集した大規模画像データと注釈フレームワークを提示します。
その枠組みは、LLMを用いた「メタラベリング」により、高レベルの画像要約と異常の点ごとの自由形式テキスト記述を組み合わせ、スケーラブルでタスク非依存な表現を作ります。
収集・キュレーションした60,669枚の歯科画像のうち、提案する階層的スキームで2,588枚を代表的に完全注釈し、約15KのVQAペアと18クラスのマルチラベル分類データなどの標準化ベンチマークを生成します。
人手によるレビューと誤り分析で、LLM主導のラベリングが忠実性と意味の正確さを損なわないことを検証し、信頼できるベンチマーク作成を可能にしています。
VQA、分類、画像キャプションの各タスクで最新のVLMを評価した結果、現在のモデルは口腔内シーンの細粒度理解が依然として難しく、キャプションが不整合または不完全になりがちなことが示され、再現可能な研究を促進するためにデータセットとツールを公開しています。

Abstract

Vision-Language Models（VLM）は医用画像解析において大きな可能性を示してきましたが、精細な注釈付きデータセットや包括的なベンチマークが不足していることにより、口腔内写真への応用はほとんど未開拓のままです。そこで本研究では、包括的なリソースであるMetaDentを提示します。MetaDentには、(1) 臨床・公開・Webソースから収集した、新規かつ大規模な歯科画像データセット、(2) 歯科写真の階層的かつ臨床的にニュアンスのある性質を捉えるためのセミ構造化注釈フレームワーク、(3) 臨床画像理解において最先端のVLMを評価するための包括的なベンチマーク群、が含まれます。私たちのラベリング手法は、高レベルの画像要約と、異常を点ごとに自由記述で説明することを組み合わせています。この方法により、豊かでスケーラブルかつタスク非依存の表現が可能になります。私たちは多様なソースから60,669枚の歯科画像を収集し、このメタ・ラベリング手法を用いて2,588枚の代表サブセットを注釈付けしました。大規模言語モデル（LLM）を活用することで、標準化されたベンチマークを導出します。具体的には、約15K件のVisual Question Answering（VQA）ペアと、18クラスのマルチラベル分類データセットです。さらに、ヒトによるレビューと誤り分析によって検証し、LLM主導の移行が忠実性と意味の正確さを確実に保持することを裏付けました。そのうえで、VQA、分類、画像キャプション作成の各タスクにわたり、最先端のVLMを評価します。定量結果からは、最も先進的なモデルであっても口腔内シーンの精細な理解は依然として難しく、精度は中程度にとどまり、画像キャプション作成では一貫性のない、あるいは不完全な説明が生成されることが示されます。私たちは、再現可能な研究を促し、歯科用途向けの視覚と言語のシステム開発を加速するために、データセット、注釈、ツールを公開します。