HoWToBench:Tree of Writingによる人間レベルの文章力を評価するための包括的手法

arXiv cs.CL / 2026/4/22

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、文章評価におけるサブ特徴の集約の不整合を、LLM-as-a-judgeの手法に対して集約ウェイトを明示的にモデル化することで解決するTree-of-Writing(ToW)を提案しています。
  • さらに、HowToBenchとして、文脈補完、アウトラインに基づく執筆、自由生成の3カテゴリにまたがる12ジャンル・1,302件の指示からなる大規模な中国語文章ベンチマークを提示します。
  • 結果として、ToWはバイアスを大きく低減し、人間の評価との整合性を示す指標としてPearson相関0.93を達成しています。
  • 著者らは、一般的な一致(オーバーラップ)ベースの指標や一般的なLLM-as-a-judge手法がテキスト擾乱に脆弱である一方、ToWはそれに対して頑健であることを確認しています。
  • また、アウトラインに基づく(Guide)タスクでは入力長と内容関連スコアが負の相関を示し、入力を単に増やしても評価が自動的に改善されないことを示唆しています。

概要: 大規模言語モデル(LLM)の文章生成能力を評価することは、文章力が多次元であることや、既存の指標に限界があることにより、依然として大きな課題です。LLMの「千語レベル」および「オープンエンドな」文章生成における性能は、従来の参照ベースの指標や、近年のLLMを“審判”として用いる手法によっては、十分に評価されていません。私たちは、LLM-as-a-judgeが文章評価においてすべてのサブ特徴を集約するときにしばしば見られる暗黙の不整合を解消するために、Tree-of-Writing(ToW)を提案します。ToWは、サブ特徴の集約ウェイトを明示的にモデル化することで、木構造のワークフローを組み込みます。また、HowToBenchとして、12ジャンルを含み、3つのタスクカテゴリ(文脈補完、アウトラインに導かれた書き方、オープンエンド生成)にまたがる1302の指示からなる大規模な中国語ライティングベンチマークを提示します。ToWはバイアスをうまく抑制し、人間の判断との間で0.93のピアソン相関を達成します。さらに、重なりベースのテキスト生成指標と、一般的なLLM-as-a-judgeの実践の双方が、テキスト上の擾乱に対して脆弱である一方、ToWはそれらに頑健であることを見出します。加えて、ガイド課題において、入力長と内容に関するスコアの間に負の相関があることも明らかにしており、入力側の情報を単に積み増すだけでは改善できないことを示しています。