AI Navigate

積極的拒否とグラウンディング実行: 安全・効率なAIoTスマートホームのためのデュアルステージ意図分析パラダイム

arXiv cs.AI / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、AIoTスマートホーム向けのデュアルステージ意図認識(DS-IA)フレームワークを提案する。高レベルの意図理解と低レベルの実行を分離し、Stage 1をセマンティックファイアウォールとして無効または曖昧な命令をフィルタリング、Stage 2を決定論的カスケード検証器として実行前に部屋・デバイス・機能を検証する。
  • 本手法は、LLMsによるエンティティの幻覚と相互作用頻度のジレンマという2つの主要な課題に対処する。決定を家庭の実際の状態に基づかせ、問合せと実行のバランスを制御する。
  • HomeBenchおよびSAGEのベンチマークでの実験により、DS-IAは正確一致(Exact Match)を58.56%で達成し(ベースラインより28%以上高い)、無効指示の拒否率は87.04%であることを示した。同時に自律タスクの成功率を42.86%から71.43%へ向上させた。
  • この結果は、DS-IAが厳密な環境のグラウンディングと段階的実現性検証によってユーザーへの妨害を最小化し、信頼性を向上させることを示している。

要旨: 大規模言語モデル(LLMs)が情報提供者からモノのインターネット(IoT)上の具現化されたエージェントへと移行するにつれて、信頼性と対話効率の点で重大な課題に直面しています。LLM が生成した指示を直接実行すると、しばしばエンティティ幻覚を引き起こします(例:存在しないデバイスを制御しようとする)。一方、既存の反復フレームワーク(例:SAGE)は「相互作用頻度のジレンマ」に悩まされ、無謀な実行と過度のユーザー問いかけの間で揺れ動きます。これらの問題に対処するため、デュアルステージ意図認識(DS-IA)フレームワークを提案します。このフレームワークは、高レベルのユーザー意図理解を低レベルの物理的実行から分離します。具体的には、Stage 1 はセマンティック・ファイアウォールとして機能し、無効な指示をフィルタリングし、現在の家庭の状態を確認して曖昧な命令を解消します。Stage 2 は決定論的カスケード検証器—厳密な逐次的ルールチェッカーを用い、部屋、デバイス、機能を順番に検証して、実行前にその行動が実際に物理的に可能であることを保証します。 HomeBench および SAGE ベンチマークでの大規模実験は、DS-IA が完全一致(EM)率 58.56% を達成し、ベースラインを 28% 以上上回ること、そして無効な指示の拒否率を 87.04% へと高めることを示しています。SAGE ベンチマークでの評価は、DS-IA が積極的な問いかけと状態ベースの推論をバランスさせることにより、相互作用頻度のジレンマを解消することをさらに示しています。具体的には、自律的成功率(不必要なユーザー介入なしにタスクを解決する能力)を 42.86% から 71.43% へ向上させる一方で、人間による説明を本当に必要とする不可約な曖昧さを特定する高い精度を維持します。これらの結果は、正確な環境認識を通じてユーザーへの干渉を最小化するフレームワークの能力を強調しています。