ATANT:AI連続性のための評価フレームワーク
arXiv cs.AI / 2026/4/10
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、RAGや長文コンテキストウィンドウのようなメモリ構成要素だけを用いるのではなく、「AI連続性」(時間の経過に伴う意味のある文脈の保持、更新、曖昧性解消、再構築)を測定するオープンでシステム非依存の評価フレームワークATANTを提案する。
- 連続性は7つの必須の性質によって定義され、評価ループ内でLLMなしで実行可能な10チェックポイントの評価手法と併せて提示される。これにより、評価時のバイアスを回避する。
- ATANTは、生活領域の物語250本と検証質問1,835問からなるナラティブなテスト用コーパスを提供し、シナリオ横断で再現可能なベンチマークを可能にする。
- 参照実装は複数のスイート反復にわたって評価され、レガシーなアーキテクチャでの58%から、隔離されたテストでは100%を達成し、さらに250話の累積スケールでは96%を達成した。ここで重要な失敗モードはクロスコンタミネーションである。
- フレームワーク、サンプルとなる物語、プロトコルはGitHubで公開されており、250話の全コーパスは段階的にリリースする予定である。




