先週、私は自宅の駐車場で、フォード・マーベリックのエンジンルームを見つめ、Ray-Ban Metaのスマートグラスを着用して、私が作ったAIエージェントClutchと話していました。私はそれにディップスティックを円を描くよう囲むよう表示してほしいと頼みました。それは、私がグラスのカメラ越しに見ているものを、リアルタイムで私の電話上に境界ボックスとして描画しました。
その瞬間は、過去12日間のハッカソンの混乱が価値あるものだったと感じさせてくれました。
誰も解決していない問題
手を使って物事を学ぶということにはこういう問題がある:YouTubeはそれを学ぶにはひどい教材だ。
油まみれの手で車のエンジンの下に潜っています。スクロールもできない。再生を一時停止して戻すこともできない。ましてやスマホとレンチを同時に持つことはできません。そして、あの14分の動画には、前置きやスポンサー、そして「いいねとチャンネル登録を忘れずに」などの要素の下に、実際の内容が3分しかありません。
PTC VuforiaのようなエンタープライズARプラットフォームはこの問題を美しく解決します――実機に対してホログラフィックなステップバイステップのオーバーレイを表示します。しかし、それらは数千ドルかかり、事前に作成済みのコンテンツを必要とし、工場の床を対象としており、あなたの駐車場には適していません。
MetaのRay-Banシリーズのようなコンシューマー向けスマートグラスは周囲を見て、それについて会話することができます。しかし「車のオイルはどう点検するの?」と尋ねると、会話的な段落が返ってくるだけです。構造化された手順も、画像も、進捗の追跡もありません。
誰も作業を見て、それを構造化されたハウツーとして生成するAIへ、繋ぐ橋を築いていない。 それがClutchです。
Clutchができること
Ray-Ban Metaのスマートグラスを装着する(または単にスマホのカメラを使う)。「トラックのオイルはどうやって点検するの?」のような質問をします、Clutchは以下を行います:
- 見ます カメラを通してあなたが見ているもの
- 生成します Gemini 2.5 Flash を使ってステップバイステップの指示
- 作成します Imagen 4 Fast を使って各ステップのAI参照画像
- 見つけます 関連するYouTubeのチュートリアルを自動で検索
- 案内します 各ステップを音声解説で進めます
- 注釈を付けます あなたが尋ねたとき(「ディップスティックを円で囲んで」)カメラ映像内の物体に
- 言語を切り替えます 会話の途中で(英語、スペイン語、ベトナム語、フランス語、中国語)
- エクスポートします 後で保存できるように手順をPDFとして
すべてリアルタイム。すべて音声操作。実際の作業をしている間も、すべて案内します。
技術スタック
Clutchは以下を実行します:
- Gemini Live API — 双方向の音声/視覚ストリーミング。エージェントはあなたの声を聞き、カメラを通して同時に周囲を見ます。
- Google ADK (Agent Development Kit) — ツール呼び出しをオーケストレーションします。エージェントはステップ生成、YouTube検索、物体の注釈、またはウィザードの進行をいつ行うかを決定します。
- Imagen 4 Fast — 各ステップの参照画像を並列に生成します(4枚の画像で約5秒)

