LLMを用いた科学的文の階層的JSON表現の生成

arXiv cs.CL / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、構造化された階層的JSON表現が科学的文の意味を保持できるかどうかを検証する。
  • 新規の構造的損失関数を用いて軽量なLLMを微調整し、学術論文から取得した文から階層的JSONを生成する。
  • 生成された階層的JSONを、その後の生成モデルへの入力として用い、元の科学的テキストを再構成する。
  • 実験では、意味的および語彙的な類似性指標により、元の文と再構成された文を比較し、階層形式が科学的テキストの情報を効果的に保持することを結論づける。

Abstract

本論文では、構造化された表現が科学文の意味を保持できるかどうかを調査する。これを検証するために、新規の構造的損失関数を用いて軽量なLLMを微調整し、科学論文から収集した文から階層的なJSON構造を生成する。これらのJSONは、その後、生成モデルによって元の文章を復元するために用いられる。意味的類似性および語彙的類似性を用いて、元の文と復元された文を比較することで、階層形式が科学的テキストの情報を効果的に保持できることを示す。