Blueのデータ・インテリジェンス・レイヤー:ストリーミングデータとエージェントによるマルチソース/マルチモーダルのデータ中心アプリケーション

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単一DBの前提に依存するNL2SQLではなく、複数のデータソースやモダリティにまたがって自然言語からデータへアクセスできるBlueのData Intelligence Layer(DIL)を提案しています。
  • DILは、構造化された企業データに加えて、LLM(Webを含む)による世界知識や、対話を通じて得られる個人コンテキストを統合することで、ユーザー意図と利用可能情報の間の意味ギャップを埋めます。
  • 中核となるデータレジストリは、異種のデータソースやモダリティのメタデータを保持し、ネイティブ/自然言語の両方のクエリを一貫して扱えるようにします。
  • DILはデータプランナーを用いて、ユーザー要求を宣言的で実行可能なクエリ計画へ変換し、リレーショナルな操作とマルチモーダルな操作を統合した形で扱います。
  • 相互作用型のシナリオにより、ユーザーの問い合わせがマルチソース検索、クロスモーダル推論、結果統合を動的に呼び出せることを示し、単一DBを超える“複合AI”の考え方を示しています。

要旨:NL2SQLシステムは、データに対する自然言語での対話ニーズの高まりに対応することを目指している。しかし、現実世界の情報は、単一のSQLクエリに一対一で対応することはほとんどない。理由は(1)ユーザはクエリを反復的に表現することが多い、(2)質問は単一データベースという閉世界仮定の外にある複数のデータソースにまたがることが多い、そして(3)クエリはコモンセンスや外部知識に依存することが頻繁にあるためである。その結果、現実的なデータ要求を満たすには、不均質なソース、モダリティ、文脈データを統合する必要がある。本論文では、マルチソース、マルチモーダル、データ中心のアプリケーションを支援するために設計されたBlueのデータ・インテリジェンス・レイヤ(DIL)を提案する。Blueは、エンタープライズ環境においてエージェントとデータをオーケストレーションする複合AIシステムである。DILは、エージェント的なデータ処理のためのデータ・インテリジェンス・レイヤとして機能し、構造化されたエンタープライズデータ、LLMを通じてアクセス可能な世界知識、そして対話によって得られる個人的な文脈を統合することで、ユーザの意図と利用可能な情報の間にある意味的ギャップを埋める。
DILの中核には、ネイティブなクエリと自然言語クエリの両方を可能にするために、多様なデータソースおよびモダリティのメタデータを保存するデータレジストリがある。DILは、LLM、Web、ユーザを「ソースとなるデータベース」として扱い、それぞれ独自のクエリインタフェースを持つものとして、第一級のデータソースへと引き上げる。DILは、データプランナに依存して、ユーザのクエリを実行可能なクエリプランへと変換する。これらのプランは宣言的な抽象化であり、リレーショナル演算子を、複数モダリティにまたがる他の演算子と統一的に扱う。DILプランナは、複雑な要求をサブクエリへ分解すること、さまざまなソースからの取得を行うこと、そして最終結果を生成するために推論と統合を行うことを支援する。ユーザのクエリが動的にマルチソース取得、クロスモーダル推論、結果の統合を引き起こす2つの対話型シナリオを通じてDILを実証し、複合AIシステムが単一データベースのNL2SQLを超えて動けることを示す。