要約: 大規模言語モデル(LLMs)は、一般的なベンチマークや領域特有のベンチマークを通じて能力を評価されることが多いですが、それらはしばしばエンドユーザーの日常の現実に十分に根ざしていません。医療のような重要な領域では、人工的またはシミュレーションされたタスクを超えて、コミュニティの日常的なニーズ、文化的慣習、微妙な文脈を反映する評価が求められます。私たちは、民間社会組織(CSO)およびコミュニティのメンバーと共同で共同創出した、コミュニティ主導の評価パイプラインSamikshaを提案します。私たちのアプローチは、文化的に配慮された、コミュニティ主導のパイプラインを通じて、コミュニティのフィードバックが何を評価するか、ベンチマークの構築方法、出力の採点方法を決定することで、スケーラブルで自動化されたベンチマークを可能にします。インドの保健領域でこのアプローチを実証します。私たちの分析は、現在の多言語LLMがニュアンスのある地域の保健に関する問いにどのように対応しているかを浮き彫りにするとともに、文脈に基づき包摂的なLLM評価を実現するためのスケーラブルな道筋を提供します。
返却形式: {"translated": "翻訳されたHTML"}