要旨: マルチモーダルな大規模言語モデルが急速に進歩するにつれ、グラフィカルユーザインタフェースにおける人間のやり取りを模倣するモバイル利用エージェントを用いることで、モバイルタスクの自動化がますます現実的になってきています。モバイル利用エージェントをさらに強化するために、先行研究ではデモンストレーション学習を用いて、人間のデモンストレーションからモバイル利用エージェントを改善しています。しかし、これらの手法は、人間の明示的な意図の流れ(例:手順の連なり)にのみ焦点を当てており、暗黙的な意図の流れ(例:個人的な嗜好)を無視しています。その結果、個別化されたモバイル利用エージェントを構築することが困難になります。本研究では、モバイル利用エージェントと人間の間における\textbf{I}ntention \textbf{A}lignment \textbf{R}ateを評価するために、まず、人間の意図に整合した行動と正解(ground-truth)となる行動を含むデータセット\textbf{MobileIAR}を収集します。これにより、エージェントが人間の意図をどれほど理解しているかを包括的に評価可能になります。次に、人間のデモンストレーションから\textbf{I}ntention \textbf{F}low \textbf{R}ecognitionに基づいて構築された枠組み\textbf{IFRAgent}を提案します。IFRAgentは、人間のデモンストレーションにおける明示的な意図の流れを分析して、標準作業手順(SOP)のクエリ単位ベクトルライブラリを構築し、暗黙的な意図の流れを分析して、ユーザ単位の習慣リポジトリを構築します。その後、IFRAgentは、SOP抽出器にretrieval-augmented generationとクエリ書き換えを組み合わせることで、生の曖昧なクエリからパーソナライズされたクエリとSOPを生成し、モバイル利用エージェントと人間の意図との整合性を高めます。実験結果は、IFRAgentが、人間の意図整合率において平均6.79\%(相対的改善32.06\%)の向上によりベースラインを上回り、またステップ完了率を平均5.30\%(相対的改善26.34\%)向上させることを示しています。コードは https://github.com/MadeAgents/Quick-on-the-Uptake で利用可能です。
キャッチアップが早い:人間のデモンストレーションから暗黙の意図を引き出してパーソナライズされたモバイル活用エージェントを実現する
arXiv cs.CL / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、デモンストレーションからのモバイル活用エージェント学習が捉えるのはユーザの明示的な手順の列のみであり、真のパーソナライズに必要な個人的嗜好といった暗黙の意図を見落としていると主張する。
- 人間の意図に整合した行動と正解行動を含む新しいデータセット MobileIAR を導入し、エージェントと人間の間で意図がどれだけ整合しているかをより包括的に評価できるようにする。
- IFRAgent を提案し、人間のデモンストレーションを用いて、明示的な意図の流れの認識(SOPライブラリを構築するため)と、暗黙的な意図の流れの認識(ユーザ単位の習慣リポジトリを構築するため)を分離する。
- IFRAgent は、SOP抽出器に加えて検索拡張生成(RAG)とクエリ書き換えを用い、曖昧なユーザの問い合わせをパーソナライズされたクエリ/SOPペアへと変換して、意図の照合精度を高める。
- 実験の結果、IFRAgent は平均 6.79%(相対で 32.06%)の人間の意図整合性の向上を達成し、平均 5.30%(相対で 26.34%)のステップ完了率の向上も示した。著者らはコードを公開している。




