要旨: 大規模言語モデル(LLM)の登場はWeb3に対して変革的なインターフェースを提供する一方で、既存のベンチマークは、高レベルなユーザの意図を、機能的に正しいかつ状態依存のオンチェーン取引へと翻訳する際の複雑さを捉えきれていません。私たちは、実世界のEthereumメインネットのトレースを300日分精密に抽出して作成した、29,921件の単一ステップおよび1,575件のマルチステップ・インスタンスからなる高忠実度ベンチマーク extsc{Intent2Tx}を提示します。合成的な指示に依存する先行研究とは異なり、 extsc{Intent2Tx}は、11のカテゴリにわたる多様なロングテールの分散型金融(DeFi)プリミティブを含む、実世界のプロトコル・インタラクションに基づいて自然言語の意図を根拠づけます。厳密な評価を可能にするために、我々は、分岐したメインネット環境における差分状態解析を用いることで、表面的なテキスト照合を超える実行認識型の枠組みを提案します。最先端の16のLLMに対する広範な評価の結果、スケーリングと検索拡張は論理的一貫性とパラメータ精度を高める一方で、現在のモデルは分布外一般化とマルチステップ計画に苦戦していることが分かりました。重要なのは、実行ベースの分析により、構文的に正しい出力であっても意図した状態遷移を達成できないことが多いという点です。これは、現在の「推論から実行」能力に大きなギャップがあることを示しています。
extsc{Intent2Tx}は、意図中心のWeb3エコシステムにおいて自律的で信頼性の高いエージェントを開発するための重要な基盤となります。コードとデータ: https://anonymous.4open.science/r/Intent2Tx_Bench-97FF .
Intent2Tx:自然言語の意図をイーサリアム取引へ変換するLLMのベンチマーク
arXiv cs.AI / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、自然言語のユーザー意図を状態依存の正しいイーサリアム取引へ変換するLLMを評価するための新しいベンチマーク「Intent2Tx」を提案しています。
- Intent2Txは300日分の実際のイーサリアムメインネットのトレースから作られており、単一ステップ29,921件とマルチステップ1,575件を、11カテゴリのプロトコル/DeFi領域にわたって含み、合成の指示への依存を避けています。
- 著者らは、フォークされたメインネット環境で差分の状態分析(differential state analysis)を行う実行を意識した評価フレームワークを提案し、生成結果が意図したオンチェーンの状態遷移を起こせるかを検証します。
- 16種類の主要LLMでの実験では、スケーリングやリトリーバル拡張によって論理整合性やパラメータ精度が向上する一方、分布外一般化やマルチステップ計画に課題が残ることが示されています。
- 重要な点として、構文的に妥当な出力でも意図した状態変化を達成できないケースがあるため、Web3エージェントにおける「推論から実行」への能力のギャップが浮き彫りになっています。