| Understudyを作り続けており、GUIアプリ、ブラウザ、シェルツール、ファイル、メッセージングを1つのローカル実行環境で操作できるオープンソースのデスクトップエージェントです。 コアとなるアイデアはデモンストレーションによる学習です。1回タスクを実行すると、エージェントは画面動画とセマンティックイベントを記録し、座標ではなく意図を抽出して、再利用可能なスキルを公開します。 動画: YouTube このデモで私は次のことを教えます: Google画像検索 -> 写真をダウンロード -> Pixelmator Proで背景を削除 -> エクスポート -> Telegramで送信 次に、別のターゲットにも同じことをさせます。 GitHub: understudy [リンク] [コメント] |
Understudy: ローカルファーストのデスクトップエージェント、GUIデモからタスクを学習する(MIT、オープンソース)
Reddit r/LocalLLaMA / 2026/3/13
📰 ニュースTools & Practical UsageModels & Research
要点
- Understudyは、GUIアプリ、ブラウザ、シェルツール、ファイル、メッセージングを1つのローカル実行環境で操作できる、MIT系のオープンソースなローカルファーストデスクトップエージェントです。
- デモンストレーションによる学習を採用しています。1回タスクを実行すると、エージェントは画面動画とセマンティックイベントを記録し、座標ではなく意図を抽出して、再利用可能なスキルを公開します。
- デモンストレーションでは、複数ステップのワークフロー(Google画像検索 → 写真をダウンロード → Pixelmator Proで背景を削除 → エクスポート → Telegramで送信)を学習し、新しいターゲットに一般化できます。
- プロジェクトは GitHub の understudy-ai/understudy で公開されており、補足動画デモは YouTube にあります。
