| AgentHandover は、Gemma 4(Ollama でローカル実行)を通じてあなたの画面を監視し、繰り返しているワークフローを構造化された Skill ファイルに変換する、オープンソースの Mac メニューバーアプリです。どのエージェントでもそれに従えます。 私はこれを作りました。というのも、エージェントに何かを任せたいと思うたびに、毎回最初からプロセス全体を説明しなければならなかったからです。たとえ毎日やっているようなことでもです。そこで AgentHandover は単に見ています。特定のタスクに対して記録を押す(Focus Record)こともできますし、バックグラウンドで動かして、同じことを数回繰り返しているのを見た後にパターンを拾い始めるようにする(Passive Discovery)こともできます。 動画内には、シンプルな例示デモがあります。Apache 2.0、リポジトリ: https://github.com/sandroandric/AgentHandover このアプローチについてフィードバックが欲しいです。あと、画面理解のために他のローカルのビジョンモデルや OS モデルを試した人がいるかも気になります……thxxx [link] [comments] |
Gemma 4で画面を観察することで、エージェントのSKILLを自動生成し、任意のエージェントが実行して自己改善できるようにする
Reddit r/LocalLLaMA / 2026/4/7
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- AgentHandoverはオープンソースのmacOSメニューバーアプリで、ローカルのGemma 4(Ollama経由)を使ってユーザーの画面を監視し、反復されるワークフローを構造化された「Skill」ファイルに変換して、エージェントが実行できるようにします。
- 特定のタスク向けの手動記録(Focus Record)と、繰り返し発生する操作の自動バックグラウンド発見(Passive Discovery)の両方に対応しており、Skillは各観察の後に改善されます。
- このシステムは、画面データを端末上に保持し、保存時暗号化を行い、データが端末の外へ出ないという「完全にオンデバイス」の11段階パイプラインとして説明されています。
- SkillはMCP経由でワンクリック統合できるため、Claude Code、Cursor、OpenClawなどのMCP対応エージェントツールが学習したSkillを利用できます。あわせてCLIも提供されています。
- このプロジェクトは、ユーザーの行動から一般的なプロセスを「学習」し、手順・ガードレール・信頼度スコアを時間とともに洗練させることで、エージェントに対して一般的な作業を毎回言い直す必要を減らすことを目的としています。




