一からベンチマークを構築する: 医療用チャットボット設定におけるコミュニティ中心のLLM評価

arXiv cs.CL / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、医療分野における現行の大規模言語モデル（LLM）のベンチマークがしばしば実世界のユーザー文脈や文化的慣習を見落としており、文脈に根ざした評価の必要性を強調している。
本論文は Samiksha を紹介する。これは市民社会組織とコミュニティのメンバーと共同で創出された、何を評価するか、ベンチマークの構築方法、出力の採点方法を指針とするコミュニティ主導の評価パイプラインである。
このアプローチは自動化による規模拡大を実現しつつ、評価プロセスに文化的配慮とコミュニティのフィードバックを組み込む。
著者らはこのパイプラインをインドの保健領域で実証し、多言語対応のLLMがニュアンスのある地域社会の健康に関する問いにどのように対応するかを示し、包括的なLLM評価のための拡張可能な道筋を提案している。

要約: 大規模言語モデル（LLMs）は、一般的なベンチマークや領域特有のベンチマークを通じて能力を評価されることが多いですが、それらはしばしばエンドユーザーの日常の現実に十分に根ざしていません。医療のような重要な領域では、人工的またはシミュレーションされたタスクを超えて、コミュニティの日常的なニーズ、文化的慣習、微妙な文脈を反映する評価が求められます。私たちは、民間社会組織（CSO）およびコミュニティのメンバーと共同で共同創出した、コミュニティ主導の評価パイプラインSamikshaを提案します。私たちのアプローチは、文化的に配慮された、コミュニティ主導のパイプラインを通じて、コミュニティのフィードバックが何を評価するか、ベンチマークの構築方法、出力の採点方法を決定することで、スケーラブルで自動化されたベンチマークを可能にします。インドの保健領域でこのアプローチを実証します。私たちの分析は、現在の多言語LLMがニュアンスのある地域の保健に関する問いにどのように対応しているかを浮き彫りにするとともに、文脈に基づき包摂的なLLM評価を実現するためのスケーラブルな道筋を提供します。

返却形式: {"translated": "翻訳されたHTML"}

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

Dev.to

脱メチル化

Dev.to

一からベンチマークを構築する: 医療用チャットボット設定におけるコミュニティ中心のLLM評価

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

脱メチル化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer