Gemma Gem は、オフスクリーンドキュメント上で WebGPU 経由により Google の Gemma 4(2B)を読み込み、あらゆる Web ページと連携するためのツールを提供する Chrome 拡張機能です。つまり、コンテンツの読み取り、スクリーンショットの取得、要素のクリック、テキストの入力、スクロール、そして JavaScript の実行ができます。
すべてのページに小さなチャットのオーバーレイが表示されます。ページについて質問すると、それ(たいてい)は呼び出すべきツールをどれにするかを判断します。作業中の推論として chain-of-thought(段階的な思考過程)を表示する「思考モード」もあります。
これはブラウザ内の 2B モデルです。単純なページの質問や JavaScript の実行には機能しますが、多段のツール連鎖は信頼性に欠け、ツールをまったく無視してしまうこともあります。エージェントループには外部依存がゼロで、試してみたい人がいればスタンドアロンのライブラリとして取り出すこともできます。
コメントの URL: https://news.ycombinator.com/item?id=47655367
ポイント: 112
# コメント: 18



