ScheMatiQ:研究質問から対話的なスキーマ探索を通じた構造化データへ

arXiv cs.CL / 2026/4/13

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • ScheMatiQは、自然言語の研究質問と大規模ドキュメント集合から、バックボーンLLMを用いて「抽出のためのスキーマ」と「根拠付きデータベース」を生成する仕組みを提案しています。
  • 手作業でのアノテーション設計と網羅的ラベリングに伴う時間的負担やエラーの問題を、Webインターフェースによる対話的なスキーマ探索・修正で緩和することを狙っています。
  • 法分野および計算バイオロジーの専門家との協働により、実運用の分析を支える出力が得られることを示しています。
  • 本手法はオープンソースとして公開され、Web公開インターフェース、ソースコード、デモ動画などのリソースも提供されています。

概要: 多くの分野では、大規模な文書コレクションに対して自然言語による研究質問を投げ、その回答には典型的に構造化された根拠が必要となります。しかし、従来は注釈スキーマを手作業で設計し、コーパスを徹底的にラベリングすることで得ており、これは遅く、誤りが起きやすいプロセスです。私たちは、背骨となるLLMへの呼び出しを活用して、質問とコーパスからスキーマおよび根拠付きデータベースを生成し、さらに抽出の誘導や修正を可能にするWebインターフェースを備えたScheMatiQを提案します。分野の専門家との共同により、ScheMatiQが法学および計算生物学における実運用の分析を支える出力を生み出せることを示します。私たちはScheMatiQをオープンソースとして公開し、公的なWebインターフェースも提供します。また、分野をまたぐ専門家の皆様に、それぞれのデータで本手法をご利用いただくことを呼びかけます。Webサイト、ソースコード、デモ動画を含むすべてのリソースは、次の場所で利用できます: www.ScheMatiQ-ai.com