私は、あなたのLLMとあなたのMacを常時つなぐダイレクトブリッジをオープンソース化しました。「ねえQ、画面を読んでこのSlackメッセージに返信して」――ようこそCODECへ

TL;DR: CODECは、あらゆるLLMをパーソナルコンピュータのエージェントに変える、完全にオープンソースのツールです。テキストまたは音声で指示して、画面を見ること、入力すること、アプリを管理すること、コマンドを実行すること、さらにはプラグインを自分でコードすることまでできます。さらに新機能：Cloudflareトンネルを使って、これまでの全操作を今度はスマホからリモートで制御できるようになりました。100%ローカルで無料—クラウドもサブスクもなく、データがあなたのハードウェアから外に出ることはありません。

実際のユースケースが重要なので、早速本題に入ります。

ただ "ねえQ、来週月曜に東京のフライトを検索して。Chromeを開いて" と言って、ブラウザがその通りに動くのを見てください。（私は、Mac Studio 35b a3b MLX上でローカル実行しているQwenへのショートカットとして「Q」を使っています。）

画面を読み取り、代わりに入力します： たとえば "今夜それを確認するって返信を下書きして" と言うと、画面を見て、アクティブなSlackやメールを読み取り、きちんと整った返信文を書いて、チャットボックスに貼り付けます。

️ 完全なビジョンと音声があります： モニターに何が映っているかを聞けば、ビジョンモデルを使ってそれを説明します。日本語訳を頼めば、それを話して返してくれます。

システムを制御します： 「午後3時にPRのことをリマインドして」と頼めばAppleのリマインダーを作成します。「Spotifyを再生して、曲をスキップして、音量を調整して」と言えば、それをネイティブに処理します。

自分でコードを書きます： たとえば "Proxmoxノードを確認するスキルを作って" と言うと、Pythonプラグインを書き、保存し、再起動なしで即座に実行します。

これらはすべて、音声・キーボード・ウェイクワードによってトリガーされ、完全にプライベートで無料で動作します。

ただしリモート機能は次元が違います： 例えば私がレストランにいるとしましょう。スマホで codec.mydomain.com を（Cloudflare Zero Trustで保護されて）開き、"バックアップスクリプトを確認して" と入力します。Macがそれを実行して結果を返します—SSHもVPNも不要です。

️ スマホのダッシュボードの設定も驚くほど簡単です。FastAPIバックエンドと素のHTMLフロントエンドの、Pythonファイルが2つあるだけです。Reactもなく、npmのインストールもなく、ビルド手順もありません。リポジトリをクローンして python3 codec_dashboard.py を実行し、Cloudflare Tunnelをポート8090に向けて、Zero Trustのメール認証を追加するだけ。ほら、スマホがあなた自身のドメイン経由で安全にマシンと通信しています。

私が一番気に入っているのはプライバシーです。Telegramに頼ってサーバー経由でシステムコマンドを中継してもらう必要がありません。Discordボットにローカルファイルへのアクセス権を渡すこともなく、WhatsAppのAPIにあなたのAI会話をスクレイピングさせることもありません。完全にダイレクトで、暗号化されていて、あなたのものです。

️ もちろん、OSをAIに操作させるのは怪しく聞こえるので、セキュリティは最初から組み込まれています。危険なコマンドをブロックする仕組みがあり、sudo、rm -rf、killallのような20以上のレッドフラグパターンを検知すると、何かが実際に実行される前にY/Nのプロンプトであなたに確認します。エージェントが行うすべての操作は、ローカルの ~/.codec/audit.log にタイムスタンプ付きで記録されます。実行せずに安全にアクションを事前確認できる「ドライラン」モードも使えます。さらに、ウェイクワード検出にはノイズフィルタがあるので、バックグラウンドで映画が再生されていても、誤ってランダムなコマンドが発火することはありません。

⚡ ゼロレイテンシのスキル： > スピードがすべてなので、CODECには15個の組み込みスキルがあり、LLMを起こすことすら なしに 即座に発火します。計算機、天気、システム情報、Web検索、音声アラート付きタイマー、Spotify、Apple Notes、そして自己書き込みのスキル作成機能まで、すべてが完全にローカルで即時に動作します。

何にでも対応： > 特定のエコシステムに縛られていません。Ollama、LM Studio、MLX（Apple Siliconで本当に快適）、OpenAI、Anthropic、Geminiの無料ティア、または文字通りどんなOpenAI互換エンドポイントとも動きます。音声の場合はWhisperを音声認識（speech-to-text）に使い、テキスト読み上げにはKokoro 82Mを使います。KokoroはMシリーズのチップで驚くほど高速で、毎回安定して一貫した声を提供してくれます。

複数マシン構成も簡単： > たとえばMac StudioでQwen 3.5 35Bのような重いモデルを動かしているとします。LAN経由でMacBook Airを軽量な「シンクライアント（thin client）」として使えます。Airには何もモデルをインストールする必要はありません。Airはあなたの声をStudioのWhisperに送るだけで、LLMの答えを受け取り、Kokoroから音声を再生します。

作る人のために設計： > 内部では、アーキテクチャ全体がPythonです。エージェント用が2ファイル、スマホダッシュボード用が2ファイル、Whisperサーバー、スキル用フォルダ、そして設定ファイル。セットアップウィザードが残りを処理します。

正直、これです。これが、私が本当に使いたかったAIのOSです。過去1年、AIをフルタイムで勉強し作り続けていて、その最後の10日間の濃密な時間を使ってCODECを現実のものにしました。このレベルのルート権限によるシステムアクセスがあるので、必ず完全オープンソースである必要があると分かっていました。

みなさんにも、これを保存して、スターを付けて、クローンして、分解して見て、私が見落としている点があれば教えてほしいです！

git clone https://github.com/AVADSA25/codec

cd codec

pip3 install pynput sounddevice soundfile numpy requests simple-term-menu

brew install sox

python3 setup_codec.py

python3 codec.py

Mickaël Farina — AVA Digital

submitted by /u/SnooWoofers7340
[link] [comments]

私は、あなたのLLMとあなたのMacを常時つなぐダイレクトブリッジをオープンソース化しました。「ねえQ、画面を読んでこのSlackメッセージに返信して」――ようこそCODECへ

要点

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer