AI Navigate

Understudy: ローカルファーストのデスクトップエージェント、GUIデモからタスクを学習する(MIT、オープンソース)

Reddit r/LocalLLaMA / 2026/3/13

📰 ニュースTools & Practical UsageModels & Research

要点

  • Understudyは、GUIアプリ、ブラウザ、シェルツール、ファイル、メッセージングを1つのローカル実行環境で操作できる、MIT系のオープンソースなローカルファーストデスクトップエージェントです。
  • デモンストレーションによる学習を採用しています。1回タスクを実行すると、エージェントは画面動画とセマンティックイベントを記録し、座標ではなく意図を抽出して、再利用可能なスキルを公開します。
  • デモンストレーションでは、複数ステップのワークフロー(Google画像検索 → 写真をダウンロード → Pixelmator Proで背景を削除 → エクスポート → Telegramで送信)を学習し、新しいターゲットに一般化できます。
  • プロジェクトは GitHub の understudy-ai/understudy で公開されており、補足動画デモは YouTube にあります。
Understudy: ローカルファーストのデスクトップエージェントが GUI デモからタスクを学習する(MIT、オープンソース)

Understudyを作り続けており、GUIアプリ、ブラウザ、シェルツール、ファイル、メッセージングを1つのローカル実行環境で操作できるオープンソースのデスクトップエージェントです。

コアとなるアイデアはデモンストレーションによる学習です。1回タスクを実行すると、エージェントは画面動画とセマンティックイベントを記録し、座標ではなく意図を抽出して、再利用可能なスキルを公開します。

動画: YouTube

このデモで私は次のことを教えます:

Google画像検索 -> 写真をダウンロード -> Pixelmator Proで背景を削除 -> エクスポート -> Telegramで送信

次に、別のターゲットにも同じことをさせます。

GitHub: understudy

投稿者 /u/bayes-song
[リンク] [コメント]