要旨: 長文の回答を伴う生成タスクにおいて、モデル応答の品質を評価することは依然として困難です。期待される正答は通常、意味的に異なりつつも補完し合う複数の要因を含んでおり、きめ細かな評価のためにはそれらを要因分解する必要があります。近年の評価手法では、タスク単位のルーブリック、または質問を考慮したチェックリストのいずれかに依存することが多いです。しかし、それらはいまだに 1) 提示された文脈に基づいていることが、応答として本当に裏付けられているかを評価するのが難しいこと、2) 参照正答の異なる側面に対する重要度の不均一性を捉えきれないこと、という課題があります。人間の試験官に着想を得て、参照正答を重み付きで文脈に結び付けられた採点ポイントへと要因分解する、加重重要度マルチポイント評価(WIMPE)フレームワークを提案します。2つの補完的な指標、すなわち加重ポイント単位アラインメント(WPA)とポイント単位コンフリクトペナルティ(PCP)を設計し、モデル応答と参照正答の間の整合と矛盾を測定します。10の生成タスクに対する大規模な実験により、WIMPEが人手によるアノテーションとの相関をより高く達成することを示します。
人間の採点者のように判断する:長文回答を伴う生成タスク向けの加重重要度マルチポイント評価フレームワーク
arXiv cs.CL / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、長文の生成応答を評価することの難しさに取り組み、参照回答には詳細な採点のために分離すべき複数の補完的要因が含まれていると主張する。
- 加重重要度マルチポイント評価(WIMPE)フレームワークを提案し、参照回答を重み付きで状況依存の採点ポイントに分解することで、きめ細かな評価を可能にする。
- 2つの指標—加重ポイント単位アラインメント(WPA)とポイント単位コンフリクトペナルティ(PCP)—を導入し、モデル応答が参照ポイントにどれだけ整合しているか、またどれだけそれらと矛盾しているかを測定する。
- 10の生成タスクにまたがる実験では、WIMPEが従来のルーブリック型やチェックリスト型のアプローチよりも、人間の注釈との相関が高いと報告されている。




