ネパール語における性と生殖に関する健康(SRH)質問への大規模言語モデルの回答を評価する

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMが匿名の性と生殖に関する健康(SRH)質問にますます使われている一方で、既存の評価は特にネパール語のような低リソース言語において、ユーザビリティや安全性の基準を見落としていることが多いと主張する。
  • LLM評価フレームワーク(LEAF)を提案し、モデルの回答を「正確性」に加えて、ユーザビリティ上の欠落(関連性、適切さ、文化的妥当性)および安全性上の欠落(安全性、センシティビティ、機密保持)という観点で採点する。
  • LEAFを用いて、研究者は9,000人超の利用者による14K件のネパール語SRH質問に対する回答について、専門家による評価を手作業で注釈付けし、その結果、「適切」(正確で、適切さがあり、かつ大きなユーザビリティ/安全性上の欠落がない)と判断された回答は35.1%にとどまったことを見出した。
  • 結果は、異なるChatGPTのバージョンは正確性が同程度でも、ユーザビリティや安全性の面では意味のある差があり得ることを示している。
  • 著者らはLEAFを、ユーザビリティと安全性が重要となる、センシティブで文化的に依存したトピックに対して再利用可能な、領域横断の評価アプローチとして位置づけている。

Abstract

大規模言語モデル(LLM)が日常生活に統合されるにつれ、ユーザーは性的および生殖に関する健康(SRH)を含む個人的な質問に対して、判断されることを恐れずに匿名でチャットできるようになり、ますます利用されるようになっています。 しかし、現在の評価手法は主として正確性に焦点が当てられており、高リソース言語における客観的な質問に対して行われることが多い一方で、特に低リソース言語やSRHのような文化的に配慮が必要な領域において、使いやすさと安全性を評価するための基準が欠けています。 本論文では、LLM評価フレームワーク(LEAF)を提案します。LEAFは複数の観点にわたって評価を行います:正確性、言語、使いやすさのギャップ(関連性、適切性、文化的妥当性を含む)、および安全性のギャップ(安全性、センシティビティ、機密性)。 LEAFフレームワークを用いて、9,000人超のユーザーから得られたネパリ語の14K件のSRH質問を評価しました。 回答は、枠組みに従ってSRHの専門家が手作業で注釈付けしました。 結果として、「適切」である(すなわち正確で、適切であり、主要な使いやすさまたは安全性に関するギャップがない)回答はわずか35.1%にとどまることが明らかになりました。 知見として、ChatGPTのバージョン間での性能の違いが挙げられます。たとえば、正確性は同程度である一方、使いやすさや安全性の側面は異なっていました。 本評価は、現行のLLMに重大な制約があることを示すとともに、改善の必要性を強調しています。 LEAFフレームワークは、使いやすさと安全性が重要となる領域、特に言語を問わず適応可能であり、センシティブなトピックへのより良い対応への道筋を提供します。