MobileDev-Bench:モバイルアプリ開発における言語モデルを評価するための包括的ベンチマーク

arXiv cs.LG / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • MobileDev-Benchは、実世界のモバイルアプリ開発タスクに対してLLMを評価するための新しいベンチマークとして導入されており、Android Native(Java/Kotlin)、React Native(TypeScript)、Flutter(Dart)を対象とする。
  • このベンチマークには、実行可能なテストパッチと組になった384件の課題(イシュー)解決タスクが含まれており、モバイルのビルド環境でモデルが生成した修正を完全に自動検証できる。
  • タスクは特に複雑で、平均して12.5ファイルにまたがる修正と324.9行の変更を要し、35.7%のケースでは複数アーティファクトにまたがる連携した変更(例:ソースファイルとマニフェストファイル)が必要となる。
  • コード対応の最先端モデル4つ(GPT-5.2、Claude Sonnet 4.5、Gemini Flash 2.5、Qwen3-Coder)を評価した結果、エンドツーエンドの解決率は3.39%〜5.21%と低く、他のソフトウェアエンジニアリングのベンチマークに比べて大きなギャップがあることが示される。
  • 本研究では、複数ファイル・複数アーティファクトにまたがる変更における故障箇所特定(fault localization)に関して体系的なボトルネックがあることを特定し、今後のモデル改善で最も必要とされる箇所をモバイル開発ワークフローの観点から示唆している。

要旨: 大規模言語モデル(LLM)は自動化されたソフトウェア工学タスクで強い性能を示しているものの、既存のベンチマークは主に汎用ライブラリやWebアプリケーションに焦点を当てており、厳格なプラットフォーム制約、フレームワーク主導のライフサイクル、複雑なプラットフォームAPIの相互作用があるにもかかわらず、モバイルアプリケーション開発はほとんど未探索のままです。私たちは、MobileDev-Benchを導入します。これは、Androidネイティブ(Java/Kotlin)、React Native(TypeScript)、Flutter(Dart)の18の本番モバイルアプリケーションにまたがって収集した、実世界の課題解決タスク384件からなるベンチマークです。各タスクは、開発者が報告した本物の課題と、実行可能なテストパッチを組にしており、モバイルのビルド環境内で、モデルが生成した修正の完全な自動検証を可能にします。このベンチマークはパッチの複雑性が大きいことが特徴です。平均で修正対象は12.5ファイル・324.9行に及び、35.7%のケースではソースやマニフェストファイルなど複数の成果物タイプにまたがる協調的な変更が必要となります。GPT-5.2、Claude Sonnet 4.5、Gemini Flash 2.5、Qwen3-Coderの4つの最先端のコード対応LLMを評価した結果、エンドツーエンド解決率は3.39%-5.21%と低く、先行ベンチマークと比べて大きな性能ギャップが明らかになりました。さらに分析すると、体系的な失敗モードが見えてきます。複数ファイルおよび複数成果物にまたがるフォールト・ローカライゼーションが主要なボトルネックとして現れています。

広告