要旨: 非構造化データから構造化知識を抽出する試みは、依然として実運用上の制約に直面しています。すなわち、エンティティおよびイベント抽出パイプラインは脆弱なままであり、知識グラフ構築にはコストのかかるオントロジー工学が必要で、さらにドメインを跨いだ一般化はほとんどの場合、本番運用に十分対応できていません。これに対し、空間と時間は普遍的な文脈上のアンカーを提供し、異種の情報を自然に整合させ、検索や推論といった下流タスクを後押しします。私たちは、
\textbf{STIndex} を提案します。これは、非構造化コンテンツを多次元の時空間データウェアハウスへと構造化するエンドツーエンドのシステムです。ユーザーは、設定可能な階層を備えたドメイン固有の分析次元を定義し、一方で大規模言語モデルが文脈に基づく抽出とグラウンディングを実行します。\textbf{STIndex} は、文書レベルのメモリ、ジオコーディング補正、品質検証を統合し、可視化、クラスタリング、バースト検出、エンティティネットワーク分析のためのインタラクティブな分析ダッシュボードを提供します。公開ヘルスケアのベンチマークでの評価において、\textbf{STIndex} は時空間エンティティ抽出の F1 を 4.37\%(GPT-4o-mini)および 3.60\%(Qwen3-8B)改善しました。ライブデモとオープンソースのコードは https://stindex.ai4wa.com/dashboard で利用できます。
STIndex: 文脈対応型マルチ次元時空間情報抽出システム
arXiv cs.AI / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、設定可能なドメイン固有の分析ディメンションと階層を用いて、非構造化テキストをマルチ次元の時空間データウェアハウスへ変換する、エンドツーエンドのシステム STIndex を提案する。
- 文脈に対応した情報抽出に、大規模言語モデル(グラウンディング付き)を使用し、加えてドキュメント単位のメモリ、ジオコーディング補正、品質バリデーションを組み合わせることで、脆さ(brittleness)を低減する。
- STIndex には、クラスタリング、バースト(急増)検出、エンティティネットワーク分析といった可視化・分析を行うためのインタラクティブなダッシュボードが含まれている。
- 公衆衛生ベンチマークにおいて、STIndex は GPT-4o-mini で時空間エンティティ抽出 F1 を 4.37% 改善し、Qwen3-8B で 3.60% 改善する。
- 著者らは、プロジェクトのダッシュボードWebサイトを通じて、ライブデモとオープンソースコードを提供している。




