ScheMatiQ: From Research Question to Structured Data through Interactive Schema Discovery

arXiv cs.CL / 4/13/2026

📰 NewsSignals & Early TrendsTools & Practical UsageModels & Research

Key Points

  • ScheMatiQは、自然言語の研究質問と大規模ドキュメント集合から、バックボーンLLMを用いて「抽出のためのスキーマ」と「根拠付きデータベース」を生成する仕組みを提案しています。
  • 手作業でのアノテーション設計と網羅的ラベリングに伴う時間的負担やエラーの問題を、Webインターフェースによる対話的なスキーマ探索・修正で緩和することを狙っています。
  • 法分野および計算バイオロジーの専門家との協働により、実運用の分析を支える出力が得られることを示しています。
  • 本手法はオープンソースとして公開され、Web公開インターフェース、ソースコード、デモ動画などのリソースも提供されています。

Abstract

Many disciplines pose natural-language research questions over large document collections whose answers typically require structured evidence, traditionally obtained by manually designing an annotation schema and exhaustively labeling the corpus, a slow and error-prone process. We introduce ScheMatiQ, which leverages calls to a backbone LLM to take a question and a corpus to produce a schema and a grounded database, with a web interface that lets steer and revise the extraction. In collaboration with domain experts, we show that ScheMatiQ yields outputs that support real-world analysis in law and computational biology. We release ScheMatiQ as open source with a public web interface, and invite experts across disciplines to use it with their own data. All resources, including the website, source code, and demonstration video, are available at: www.ScheMatiQ-ai.com