多言語医療QAにおける言語横断の証拠(エビデンス)の効果

arXiv cs.CL / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、高資源言語(英語、スペイン語、フランス語、イタリア語)と低資源言語(バスク語、カザフ語)における多言語医療質問応答で、外部エビデンスが性能に与える影響を調査している。
  • 3種類の外部エビデンス(専門医療のキュレーション済み知識リポジトリ、Webから取得した内容、LLMのパラメトリックな説明)を、モデル規模の異なる条件下で比較した。
  • 結果として、英語ではモデルが大きいほど一貫して性能が高いが、外部エビデンスの最適戦略は言語の資源状況によって変わることが示された。
  • 高資源言語では英語のWebから取得したデータが最も有益であり、低資源言語では英語と対象言語の両方を用いた言語横断的な検索が最良で、高資源言語相当の精度につながる。
  • 外部知識は常に効果的に性能を押し上げるわけではなく、最適化には「言語資源の種類」と「モデル規模」の両方が重要だと論じている。
  • また、PubMedのような専門医療知識ソースは権威性はあるものの、多言語カバレッジが不十分だという制約があることが指摘されている。

Abstract

本論文では、高資源言語(英語、スペイン語、フランス語、イタリア語)および低資源言語(バスク語、カザフ語)にまたがる多言語医療質問応答を調査する。さまざまな規模のモデルに対して、外部エビデンス源の3種類(専門の医療知識を収集したキュレーション済みリポジトリ、ウェブから取得したコンテンツ、LLMのパラメトリック知識に基づく説明)を評価する。さらに、多言語・単言語・クロスリンガルな検索を用いた実験も行う。結果は、ベースライン評価において、より大規模なモデルが英語で一貫して優れた性能を示すことを明らかにした。外部知識を組み込む場合、高資源言語では英語のウェブから取得したデータが最も有益である。一方、低資源言語では、英語と対象言語の両方で検索を行う方策を組み合わせることが最も効果的であり、高資源言語の結果と同等の精度が得られる。これらの知見は、外部知識が常に体系的に性能を向上させるという前提に挑戦するものであり、有効な方策が言語資源の提供元とモデル規模の両方に依存することを示している。さらに、PubMedのような専門の医療知識ソースには限界がある。権威ある専門知識を提供する一方で、多言語のカバレッジが十分ではないためである