ネパール語における性と生殖に関する健康(SRH)質問への大規模言語モデルの回答を評価する
arXiv cs.CL / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMが匿名の性と生殖に関する健康(SRH)質問にますます使われている一方で、既存の評価は特にネパール語のような低リソース言語において、ユーザビリティや安全性の基準を見落としていることが多いと主張する。
- LLM評価フレームワーク(LEAF)を提案し、モデルの回答を「正確性」に加えて、ユーザビリティ上の欠落(関連性、適切さ、文化的妥当性)および安全性上の欠落(安全性、センシティビティ、機密保持)という観点で採点する。
- LEAFを用いて、研究者は9,000人超の利用者による14K件のネパール語SRH質問に対する回答について、専門家による評価を手作業で注釈付けし、その結果、「適切」(正確で、適切さがあり、かつ大きなユーザビリティ/安全性上の欠落がない)と判断された回答は35.1%にとどまったことを見出した。
- 結果は、異なるChatGPTのバージョンは正確性が同程度でも、ユーザビリティや安全性の面では意味のある差があり得ることを示している。
- 著者らはLEAFを、ユーザビリティと安全性が重要となる、センシティブで文化的に依存したトピックに対して再利用可能な、領域横断の評価アプローチとして位置づけている。

