Open source AI is winning — but here's why I still pay $2/month for Claude API
Qwen3.6-35Bがちょうど出て、インターネットが燃えています。Hacker Newsで917ポイント。開発者たちがあちこちでローカルのインスタンスを立ち上げ、Docker Composeファイルを書き、専有型AIの終焉を祝っています。
気持ちはわかります。私もそこにいました。
でも、ローカルでモデルを6か月運用したあと、APIアクセスに戻しました。そして正確に月2ドルそれを払っています。
理由はこちらです。
The local AI dream vs. reality
私はOllamaを4か月使いました。私のセットアップはこんな感じでした:
# 紙の上では最高に見える
ollama run qwen3.6:35b
# 現実:初回のロードに18分
# 1レスポンスあたり4〜8秒の遅延
# ラップトップのファンがヘリコプターみたいにうるさい
# MacBookは常に94°Cで動いている
Qwen3.6-35Bは本当にすごいです。でも350億パラメータなので、ローカルでまともな速度で動かすにはかなり本格的なハードウェアが必要です:
- 最低:20GB VRAM(RTX 3090以上)
- 快適:40GB+(A100、2×3090)
- 高速推論:80GB+(H100)
ふつうのノートPCやデスクトップだと、品質が劣化した量子化4-bit版になり、レスポンス時間も5〜10秒かかります。
The math nobody talks about
本当のコスト分析をしてみましょう:
選択肢1:Qwen3.6-35Bをローカルで動かす
RTX 4090(24GB VRAM):$1,600
消費電力350Wで:月あたり約$25
時間:セットアップに2〜3時間、以後は継続的なメンテナンス
クエリあたりの応答:3〜8秒
品質:良い(量子化4-bit)
選択肢2:SimplyLouie 月2ドルのAPI
セットアップ:2分
コスト:月$2
応答時間:<1秒
品質:Claude claude-opus-4-5(量子化なし)
ハードウェア:手元の既存ノートPC
GPU購入だけの損益分岐点:APIアクセス66年分。
But wait — open source is FREE!
そうです、そしてその点は大好きです。実験、微調整、プライバシー重視のワークロード、エッジでの展開——オープンソースはあらゆる場面で勝ちます。
でも毎日の開発者の生産性の話をすると? 数学は残酷です。
私の典型的な1日:
- 朝のスタンドアップ準備:API呼び出し3回
- コードレビュー:API呼び出し8〜12回
- ドキュメント作成:API呼び出し5〜8回
- デバッグ:API呼び出し15〜25回
- メール/コミュニケーション:API呼び出し4〜6回
合計:約50回のAPI呼び出し/日 × 30日 = 月1,500回
SimplyLouieの料金だと月$2です。Claudeの直接APIで同等に使うとトークン使用量次第で$15〜$30です。
The quality gap is real
先週私が実際に行った正直な比較がこちらです:
プロンプト:「このコードのセキュリティ脆弱性をレビューして」
import sqlite3
import flask
app = flask.Flask(__name__)
@app.route('/user')
def get_user():
user_id = flask.request.args.get('id')
conn = sqlite3.connect('users.db')
cursor = conn.execute(f'SELECT * FROM users WHERE id = {user_id}')
return str(cursor.fetchone())
Qwen3.6-35B(ローカル、Q4_K_M量子化):
SQLインジェクションの脆弱性の可能性があります。パラメータ化クエリの使用を検討してください。
Claude claude-opus-4-5(SimplyLouie API経由):
重大:10行目でSQLインジェクションの脆弱性があります。f-stringによる補間で、任意のSQL実行が可能です。攻撃ベクター:
?id=1 OR 1=1--により、ユーザーテーブル全体がダンプされます。修正:cursor.execute('SELECT * FROM users WHERE id = ?', (user_id,))を使ってください。追加の問題:(1)user_idの入力バリデーションがない、(2)ユーザーデータを返す前の認証チェックがない、(3)データベース接続が閉じられていない(コンテキストマネージャーを使うべき)、(4)生のタプルを返すことで、すべてのカラムが露出し、潜在的に機密フィールドも含まれる。
深さの違いは、何百ものクエリにわたって一貫しています。量子化は速度だけでなく、推論の連鎖にも影響します。
The use case where local wins
公正に言うと、ローカルAIには向いている場面があります:
- プライバシー重視のコード — 医療、金融、防衛
- 微調整 — 他人のAPIは微調整できない
- 高ボリュームのバッチ処理 — APIコストが積み上がる10M+トークン
- エアギャップ環境 — インターネット接続なし
- 研究/実験 — モデルの内部を理解したい
こうしたケースでは、Qwen3.6やLlama 3.3は本当に優れた選択肢です。
But for 99% of developers...
あなたはコードを書きたい。モデルのインフラを管理したくはないはずです。
ここではSimplyLouieで月2ドルが何をくれるか:
# すぐに使える、セットアップ不要
curl https://api.simplylouie.com/v1/chat \
-H "Authorization: Bearer YOUR_KEY" \
-H "Content-Type: application/json" \
-d '{"message": "Review this code for SQL injection", "code": "..."}'
# レスポンスは<1秒
# Claude claude-opus-4-5品質をフルで
# GPU不要、Docker不要、量子化なし
ローカルのセットアップと比べると:
# まずモデルを取得(20GBダウンロード、45分)
ollama pull qwen3.6:35b-instruct-q4_K_M
返却形式: {"translated": "翻訳されたHTML"}# サーバーを起動(RAMに読み込み、3〜5分)
ollama serve
# 次にリクエストを実行(応答時間3〜8秒)
curl http://localhost:11434/api/generate \
-d '{"model": "qwen3.6:35b-instruct-q4_K_M", \
"prompt": "このコードをレビューしてください"}'
SimplyLouieを使う本当の理由
正直に言うと? 保護犬です。
SimplyLouieは、ルイという名の保護犬を中心に作られました。売上の50%が動物保護に使われます。私は月2ドルを支払っていて、そのうち50%が保護施設の犬のためのエサ代に回ります。
それを代替案と比べたところ——OpenAIやAnthropicに月20ドル——計算は明らかでした。
$2 × 50% = 動物保護に月1ドル。
$20 × 0% = 動物保護に0ドル。
そして、このプロダクトは私の用途にとってより良いです。
結論
Qwen3.6-35Bは素晴らしい。オープンソースのAIが勝っています。ですが「無料」には現実のコストがあります——ハードウェア、電気代、時間、そして品質です。
日々の開発者としての生産性のために、私は月2ドルを払い続けて、インフラ管理は別の誰かに任せます。
ローカルとクラウド、あなたのAI環境はどちらですか? どんなハードウェアでQwen3.6を動かしているのか、本当に気になります。コメント欄に書いてください。




