MetaDent:歯科向け視覚言語モデルのための臨床画像のラベリング
arXiv cs.CV / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- MetaDentは、歯科領域における視覚言語モデル(VLMs)で必要とされる細粒度の注釈付きデータセットとベンチマークの不足を解決するため、複数ソースから収集した大規模画像データと注釈フレームワークを提示します。
- その枠組みは、LLMを用いた「メタラベリング」により、高レベルの画像要約と異常の点ごとの自由形式テキスト記述を組み合わせ、スケーラブルでタスク非依存な表現を作ります。
- 収集・キュレーションした60,669枚の歯科画像のうち、提案する階層的スキームで2,588枚を代表的に完全注釈し、約15KのVQAペアと18クラスのマルチラベル分類データなどの標準化ベンチマークを生成します。
- 人手によるレビューと誤り分析で、LLM主導のラベリングが忠実性と意味の正確さを損なわないことを検証し、信頼できるベンチマーク作成を可能にしています。
- VQA、分類、画像キャプションの各タスクで最新のVLMを評価した結果、現在のモデルは口腔内シーンの細粒度理解が依然として難しく、キャプションが不整合または不完全になりがちなことが示され、再現可能な研究を促進するためにデータセットとツールを公開しています。



