ATANT:AI連続性のための評価フレームワーク

arXiv cs.AI / 2026/4/10

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、RAGや長文コンテキストウィンドウのようなメモリ構成要素だけを用いるのではなく、「AI連続性」(時間の経過に伴う意味のある文脈の保持、更新、曖昧性解消、再構築)を測定するオープンでシステム非依存の評価フレームワークATANTを提案する。
  • 連続性は7つの必須の性質によって定義され、評価ループ内でLLMなしで実行可能な10チェックポイントの評価手法と併せて提示される。これにより、評価時のバイアスを回避する。
  • ATANTは、生活領域の物語250本と検証質問1,835問からなるナラティブなテスト用コーパスを提供し、シナリオ横断で再現可能なベンチマークを可能にする。
  • 参照実装は複数のスイート反復にわたって評価され、レガシーなアーキテクチャでの58%から、隔離されたテストでは100%を達成し、さらに250話の累積スケールでは96%を達成した。ここで重要な失敗モードはクロスコンタミネーションである。
  • フレームワーク、サンプルとなる物語、プロトコルはGitHubで公開されており、250話の全コーパスは段階的にリリースする予定である。

Abstract

私たちは、ATANT(Automated Test for Acceptance of Narrative Truth)を提案します。これは、AIシステムにおける連続性(continuity)を測定するためのオープンな評価フレームワークであり、時間をまたいで意味のある文脈を保持し、更新し、曖昧さを解消し、再構築する能力を対象とします。AI業界はメモリ構成要素(RAGパイプライン、ベクタデータベース、長いコンテキストウィンドウ、プロファイル層)を生み出してきましたが、これらの要素が真の連続性を生み出すかどうかを、正式に定義または測定する公開されたフレームワークは存在しません。私たちは、連続性を7つの必須特性を持つシステム特性として定義し、評価ループ内でLLMを用いない10のチェックポイントによる評価手法を導入し、6つの人生領域にまたがる250の物語からなるナラティブ・テストコーパスと、1,835の検証質問を提示します。参照実装を5つのテストスイート反復にわたって評価し、レガシーなアーキテクチャでは58%から、分離モード(250話)で100%、50話の累積モードで100%へと進め、250話の累積スケールでは96%を達成しました。累積結果が主要な指標です。すなわち、同一のデータベースに250の異なる人生ナラティブが共存する場合、システムは、文脈の混線(クロスコンタミネーション)なしに、正しい文脈に対して正しい事実を取得できなければなりません。ATANTはシステムに依存せず、モデルにも依存せず、連続性システムを構築し検証するための、順序づけられた手法として設計されています。フレームワークの仕様、例示ストーリー、および評価プロトコルは https://github.com/Kenotic-Labs/ATANT で利用可能です。完全な250話コーパスは段階的に公開されます。