OralMLLM-Bench：歯科診療におけるマルチモーダル大規模言語モデルの認知能力を評価する

arXiv cs.CL / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、歯科のX線画像解析に必要な認知プロセスを評価することを目的とした包括的ベンチマーク「OralMLLM-Bench」を提案しています。
ベンチマークは、3つの歯科画像モダリティ（歯根周囲、パノラマ、側方セファロメトリー）を対象とし、認知カテゴリとして「知覚」「理解」「予測」「意思決定」を評価します。
公開データセットから得た臨床に基づく27のタスクを含み、手作業でキュレーションされた注釈と、評価のための臨床家による評価（3,820件）を用意しています。
GPT-5.2やGLM-4.6を含む6つの最先端MLLMをテストし、臨床家との性能ギャップ、モデルの強み・弱み、典型的な失敗パターンを明らかにします。
著者らは改善に向けた提言を示し、このデータ資源を、歯科の実運用ワークフローに適合しつつ安全性や臨床的な認知に整合した次世代AI開発に役立てることを目指しています。

要旨: 多モーダル大規模言語モデル（MLLMs）は、歯科画像解析の有望なパラダイムとして登場してきました。しかし、X線画像解析に必要な多段階の認知プロセスを捉える能力については、いまだ不明です。そこで本研究では、歯科X線画像解析におけるMLLMの認知能力を評価するための包括的なベンチマークを提示します。このベンチマークは、3つの重要な撮像モダリティ、すなわち、近位根尖周囲（periapical）画像、パノラマ（panoramic）画像、側方セファロメトリー（lateral cephalometric）画像にまたがり、4つの認知カテゴリ（知覚、理解、予測、意思決定）を定義します。ベンチマークは、公的データセットから導出した27の臨床に根ざしたタスクで構成されており、手作業で厳選された注釈と、評価用の3,820件の臨床医アセスメントが含まれます。GPT-5.2およびGLM-4.6を含む6つの最先端MLLMを評価します。歯科診療におけるMLLMと臨床医の間の性能ギャップを示し、モデルの強みと限界を明確化し、失敗パターンを特徴づけ、改善に向けた提言を行います。本データ資源は、歯科診療における臨床的認知、安全要件、ワークフローの複雑性に整合した次世代の人工知能システムの開発を促進します。