MuTSE：人間参加型マルチユース・テキスト簡約評価器

arXiv cs.CL / 2026/4/13

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

MuTSEは、任意のCEFR目標に対してLLMが生成したテキスト簡約を評価するための、人間参加型（ヒューマン・イン・ザ・ループ）かつ対話的なWebアプリケーションとして提示される。
本システムは、同時実行によりP×Mの組合せを走らせることで、プロンプトとモデルの組合せの系統的なテストを可能にし、リアルタイムの比較マトリクスを生成する。
階層化された意味整合エンジンを備えており、線形性バイアスのヒューリスティック（λ）を用いるほか、視覚的なマッピングによって元の文と簡約後の出力を結び付ける。
著者らはMuTSEを、質的な比較に伴う認知的負荷を軽減し、下流のNLPデータセット構築における再現性を向上させるものとして位置付けている。
コードとデモはOSFリンクを通じて査読のために公開されており、他の研究者による導入・評価を支援する。

要旨: 大規模言語モデル（LLM）が文章の単純化においてますます普及するにつれ、多様なプロンプト戦略やアーキテクチャにわたってそれらの出力を体系的に評価することは、NLP研究とインテリジェント・チュータリング・システム（ITS）における重要な方法論的課題であり続けています。堅牢なプロンプトを開発する際には、比較テキスト分析のための構造化された視覚的枠組みが欠如していることがしばしば障害となります。研究者は通常、静的な計算スクリプトに依存しますが、教育者は標準的な対話インターフェースに制約されます――どちらのパラダイムも、プロンプトとモデルの組合せ（プロンプトモデルのパーミュテーション）に対する体系的な多次元評価をサポートしていません。これらの制限に対処するために、
\textbf{MuTSE}\footnote{プロジェクトコードおよびデモは、査読用に以下の匿名化URLで公開されています。https://osf.io/njs43/overview?view_only=4b4655789f484110a942ebb7788cdf2a。MuTSEは、任意のCEFR熟達度目標に対するLLM生成の文章単純化の評価を効率化する、インタラクティブな人間を介在させた（human-in-the-loop）Webアプリケーションです。このシステムは、 $P \times M$ 通りのプロンプト・モデルのパーミュテーションを同時に実行し、リアルタイムで包括的な比較行列を生成します。新しい階層化セマンティック整合エンジンに、線形性バイアスのヒューリスティック（ $\lambda$ ）を拡張して組み込むことで、MuTSEは視覚的に原文文をその単純化後の対応文へとマッピングし、質的分析に伴う認知負荷を低減します。さらに、下流のNLPデータセット構築のための、再現可能で構造化された注釈を可能にします。