先に正直に言います。私はソロ創業者で、シニアエンジニアではありません。バックグラウンドはビジネスで、コンピュータサイエンスではありません(ただしコンピューティングの学位はあります)。約3か月かけて、このアプリを最初から自分で学習してコーディングしました。そして、これはノリと勢いで作ったものではないと明確にしておきたいです。すべてのAPI連携、すべてのWebhook、すべてのデータベースのルールは、調査し、テストし、適切に実装しました。コミットの合間にコースも受けていて、コードの中身はだいたい把握しています。
約700回のコミットと、1000時間以上を投入したうえで、ここからは実際に裏側で動いているものです。
私は18個のAPI連携を同時に動かしています。
- OpenAI(GPT-5 Nano、GPT-5.2、GPT-5.2 Pro、DALL-E 3、WebRTC Realtime、ベクターストア付きAssistants API)
- Anthropic(プロンプトキャッシュ付きClaude 3.5 Sonnet)-
- Google(Gemini Flash、Gemini 3.1 Pro)
- xAI(Grok 4)
- DeepSeek(V3とR1)
- Luma AI(Dream Machineによる動画生成)
- Kling(1.6、2.6、3.0 UHD)
- Veo 3.1
- ElevenLabs(カスタム歌詞での音楽生成、ボイスオーバー、ボイスタナー)
- Flux(ピクセルパーフェクトな画像編集)
- Banana Pro(Nanoの画像生成)
- Meshy(3Dモデル生成)
- Stripe(Webhook付きサブスクリプション課金)
- Firebase(認証、Firestore、セキュリティルール、IAM)
- Sentry(エラートラッキング)
- IPify(登録時のIPレート制限)
興味がある人向けに、アーキテクチャはこちら:
- VercelにServerlessのAPIルートとしてデプロイ
- プライマリデータベースとしてFirebase Firestoreを使用し、カスタムのセキュリティルールを適用
- 永続メモリ用のベクターストア付きでOpenAI Assistants APIを使用 - 会話中のモデル切り替えをまたいで、どのメッセージも保存され、検索可能。ログアウトしても、新しいデバイスでも、新しいチャットでも、メモリはそこに残ります。
- クレジット経済システム。生成タイプごとにトークン単価またはリクエスト単価があり、Firestoreトランザクションで原子的に差し引きます
- 決済の二重アーキテクチャ - ウェブとAndroidはStripe、iOSはCdv Purchaseプラグイン経由のApple IAP。どちらも同じCloud Runバックエンドに同期
- Stripeサブスクリプションのライフサイクルイベント向けのカスタムWebhookハンドラ
- すべてのテキストモデルでストリーミングレスポンスを行うためのサーバー送信イベント
- リアルタイム音声のためのWebRTCセッション管理
実際に何をしているか:
- 会話の途中でGPT-5.2、Grok 4、Claude 3.5、Gemini 3.1 Proを切り替えても、メモリの連続性はそのまま
- Luma Dream Machine、Kling 1.6、2.6、Kling 3.0 UHDでHD動画を生成。最大15秒のシネマティックな動画と音声
- Veo 3.1で音声付きのシネマグレード動画を生成
- 完全な音楽スタジオ - カスタム歌詞を作るか、AIに生成させるかを選択し、ジャンルを指定して、ElevenLabs経由でダウンロード可能なMP3を取得
- OpenAI WebRTCでリアルタイムの双方向ボイス会話(アニメーションオーブUI)
- 2-wayポッドキャストモード - AIと会話し、その内容をダウンロード可能なMP3として書き出し
- Fluxのピクセルパーフェクトな画像編集 - 背景の変更、オブジェクトの差し替え、平易な英語での指示によるシーンのリライティング
- Vision to Code - スクリーンショットをアップロードして、分割キャンバス上でライブ編集可能なコードを取得
- Webアーキテクトおよびゲームエンジン - アプリやゲームを説明して、インタラクティブなキャンバス上で組み上がっていくのを見る
- Meshyが動かす3Dモデルスタジオ。チャットウィンドウの中で開き、Unity、Unreal、または3Dプリント用にすぐ使えるSTLファイルを生成してダウンロード可能にします
- ナレッジベース - ドキュメントをアップロードし、検索可能なベクターストアを構築。単一ユーザーとして、または他のデバイスでも同時に、任意のモデルとデバイスで横断して検索・照会できます
- カスタムメモリ管理 - 「これを特定の内容として覚えて」と平易な英語で伝えたり、古い記憶を新しい情報で上書きしたり、完全に忘れさせたりできます。メニューもありません。手作業のタグ付けもありません。人に話すみたいに話すだけで、それが記憶され、更新され、または削除され、そのメモリがすべてのモデルと今後のあらゆるセッションへ引き継がれます
- 執筆、コーディング、ビジネス分析、コンテンツ制作にまたがる、目的特化のツールを50個以上
- カーソル移動やキャンバス、動画に反応するライブなインタラクティブ壁紙20個以上(さらに、インターフェース全体の見た目を変えるためのカスタムテーマもあります)
- Capacitor経由でWeb、iOS、Android、Macデスクトップで動作
- RTL対応を含む26言語(メニュータイトルなど)
本音で言うと、私はここが不確かです..
私はどんどん追加してしまっています。3Dモデリングスタジオは、午前2時の「じゃあなぜやらないの?」という判断が、きちんとした実装にまで発展したものです。Veo 3.1とKling 3.0 UHDは最近の追加で、音付きの最大15秒のシネマティックな動画を生成します。これは、単体製品として提供されているほとんどの動画生成ツールよりも、実際に長くて高品質です。
また、メモリシステムも会話履歴を保存するだけのものから進化しています。特定のことを覚えてほしい/知っている内容を忘れて新しいものに置き換えてほしい、と平易な英語で伝えれば、それがすべてのモデルと今後のあらゆるセッションに引き継がれます。メニューなし。設定なし。話しかけるだけ。
では、どの時点から「追加」が実際にプロダクトを傷つけ始めるのでしょうか?正直、わかりません。ですが代わりの状況を考えると——ユーザーがChatGPT、Claude、Midjourney、Suno、Runway、ElevenLabsの6つものサブスクを行き来して管理する——そう考えると、統合されたワークスペースには本当に筋があると思います。
私はやりすぎに突っ走っているのでしょうか?これは、私が次に作ろうとしているものです。しかも、私が投稿している理由はまさにここ:
次に計画しているのは、先回りのメモリシステムです。ほかのすべてのように「反応型」ではなく、本当に先回りです。
考え方はシンプルですが、実装は面白いです。たとえば「明日の9時にジェーンにメールするのをリマインドして」と平易な英語で伝えます。意図を拾い、重要な情報を抽出し、Firebaseにタイムスタンプ付きの登録を作成。さらに、ログインのたびに動くカスタムスクリプトが、予定のリマインダーをチェックします。時間が来たら、既存のWebRTC音声システムを使ってリマインドを実際に話して返します。プッシュ通知でもバナーでもなく、AIがあなたに話しかける“口頭でのリマインド”です。しかも、あなたが1日中話してきたAIからです。
ユーザーは完全な制御を持ちます。先回りシステムをオン/オフする、会話の途中ならリマインダーを却下するかスヌーズする、といったことができます。AIは、リマインダーに対してあなたがどう反応するかを時間をかけて学習します。
これは私が最も不安な機能です。他はすでに説明した通りで、いま現在、ウェブ、iOS、Android、そしてMacデスクトップで動いており完成しています。先回りのメモリが次です。
でも正直に言うと、この投稿全体は、私は「人が気づいていなかった問題に対する本物の解決策を作っているのか、それとも、あまりに包括的でそれ自体が新しい問題になってしまうようなものを作っているのか」を、ある地点からわからなくなってしまったからです。使えるというより圧倒されるような、力が強すぎるプラットフォーム。
ぜひフィードバックを聞きたいです。なぜなら、このプロジェクトが始まった時点では、包括的なチャットボットにするつもりが、いつのまにか完成度の高いプラットフォームへ進化していったからです
[link] [comments]



