SpreadsheetArena: LLMによるスプレッドシートワークブック生成における好みの分解

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、盲検のペアワイズ比較を通じて、LLM生成のスプレッドシートワークブックを評価するプラットフォームSpreadsheetArenaを紹介する。
エンドツーエンドのスプレッドシート生成は複雑でオープンエンドなタスクであり、評価基準は使用ケースやプロンプトによって大幅に異なると論じている。
使用ケース間で文体的、構造的、機能的特徴に大きなばらつきがあることを報告し、さらに金融プロンプトに対して専門分野のベストプラクティスに沿ったスプレッドシートを高順位のモデルでも一貫して生成できないことがあると指摘している。
著者らはエンドツーエンドのスプレッドシート生成のさらなる研究を呼びかけ、ライブアリーナが spreadsheetarena.ai で利用可能であることに言及している。

大規模言語モデル（LLMs）は、構造化された成果物を作成・操作するタスクをますます任されるようになっている。私たちは、自然言語で指定されたユーザーの明示的および暗黙的な制約を満たすスプレッドシート成果物を生成するように促される、エンドツーエンドのスプレッドシート生成のタスクを検討する。私たちはSpreadsheetArenaを導入し、このタスクに対するモデルの性能を、LLM生成のスプレッドシートワークブックの盲検ペア評価を通じて評価するためのプラットフォームを提供する。他の複雑でオープンエンドなタスクと同様に、関係する評価基準は使用ケースとプロンプトによって大幅に異なることがあり、それらは正式に定式化するのが難しい場合がある。一般的なチャットやテキスト生成設定と比較して、スプレッドシート生成には独自の課題と機会がある。タスクの出力構造は明確に定義され、多次元であり、相互作用性やレイアウトに関する複雑な配慮がしばしば必要となる。その他の発見として、好みのスプレッドシートの文体、構造、機能的特徴は使用ケース間で大きく異なることを観察し、金融プロンプトのスプレッドシートに関する専門家評価は、高く評価されたアリーナモデルであっても、ドメイン固有のベストプラクティスに沿ってスプレッドシートを安定して生成できないことを示唆している。私たちの研究が、エンドツーエンドのスプレッドシート生成を、LLMsにとって挑戦的で興味深い「複雑でオープンエンドなタスク」の一部として、さらに研究を促すことを願っている。私たちのライブアリーナは https://spreadsheetarena.ai にホストされている。