技術の世界には、何度も繰り返されるパターンがあります。最もインパクトの大きいプロダクトは、新しい行動を生み出すのではなく、既存の行動に自らを組み込むのです。
メールは、より優れた手紙だったから手紙を置き換えたわけではありません。人がすでに働く場所に“住み込み”たから置き換えられました。モバイルアプリは、より優れたWebサイトだったからWebサイトを置き換えたわけではありません。人がすでに見ている場所に“住み込み”たから置き換えられました。
AIコンパニオンも同じパターンをたどっています。そして、それが組み込まれるプラットフォームは? あなたのメッセージアプリです。
なぜ専用AIアプリは行き詰まるのか
あらゆるAIコンパニオンのプラットフォームには、共通の成長課題があります。ユーザーに新しいアプリをダウンロードしてもらい、アカウントを作成し、習慣を身につけてもらい、そしてまた戻ってきてもらう必要があるのです。各ステップで、見込みユーザーの50〜70%が失われます。
ファネルはだいたい次のようになります:
- 製品を知る:100%
- Webサイトを訪問:30%
- アプリをダウンロード:10%
- アカウントを作成:7%
- 最初の会話をする:5%
- 翌日に戻る:2%
- 30日後もアクティブ:0.5%
これはプロダクトの問題ではなく、プラットフォームの問題です。専用アプリは、あなたのスマホにある他のすべてのアプリと注意(Attention)を奪い合います。そして注意は有限です。
メッセージング連携という仮説
もしAIが、1日に50回以上開いているアプリの中に住むとしたらどうでしょう?
WhatsAppには月間アクティブユーザーが27億人います。Telegramは9億人。これらは、開くように説得が必要なアプリではありません。人々は、毎日ずっとそこにいます。
WhatsApp上のAIコンパニオンなら、ホーム画面上の居場所を巡って争う必要はありません。プッシュ通知の許可を取る必要もありません。新しい習慣を作ってもらう必要もありません。既存のメッセージ一覧に、単にもう一つの会話が追加されるだけです。
このことは定着率の数字にも表れています。メッセージングプラットフォーム上のAIコンパニオンは、専用アプリと比べてDay-30の定着率が通常3〜5倍高くなります。
メッセージングAIの技術アーキテクチャ
メッセージングプラットフォームの上にAIを構築すると、興味深いアーキテクチャ上の課題が生まれます:
1. セッション管理を、セッションなしで
従来のチャットボットにはセッションがあります。開始と終了を持つ、区切られた会話です。メッセージングアプリにはありません。WhatsApp上の会話は、何か月にも及ぶ可能性のある連続したスレッドです。
つまり、AIには永続的な状態管理が必要になります。すべてのメッセージは、会話履歴全体の文脈の中で到着します。システムは、何千ものメッセージをメモリに読み込むことなく、関連する文脈を効率的に取得する必要があります。
よくあるパターンとしては、「直近のNメッセージ」をローリングで保持し、さらに全履歴に対するセマンティック検索インデックスを持つ、というものがあります。メッセージが届いたら、最近の文脈と意味的に関連のある過去のメッセージを組み合わせて、プロンプトを作ります。
2. 本質的に非同期
専用アプリではUXを制御できます。応答時間、入力中インジケーター、既読確認——すべてカスタマイズ可能です。WhatsAppやTelegramでは、プラットフォームのUXに制約されます。
これは実は利点でもあります。メッセージングアプリには、非同期コミュニケーションのための仕組みが最初から組み込まれています。入力中インジケーター、配達確認、「最終ログイン」タイムスタンプなどです。ユーザーは、メッセージングでは応答時間が変動することをすでに期待しています。3〜5秒かかって返信するAIは、WhatsAppでは自然に感じられますが、専用チャットUIでは痛いほど遅く感じられます。
3. リッチメディアはネイティブ
現代のメッセージングプラットフォームは、画像、ボイスメッセージ、ステッカー、リアクション、位置情報共有などをサポートしています。WhatsApp上のAIコンパニオンは、ボイスノートを送ったり、写真を共有したり、絵文字でリアクションしたりできます。これらはすべて、プラットフォームのネイティブ機能を使います。
これにより、テキストのみのAIインターフェースよりはるかに豊かな相互作用モデルが生まれます。AIはユーザーが送った画像を「見る」(ビジョンモデル経由)、音声で応答する(TTS経由)、関連する画像を共有する——すべてが、プラットフォームに馴染んだ体験として感じられます。
4. 配達保証と状態
メッセージングプラットフォームは、配達の信頼性を扱ってくれます。ユーザーの端末がオフラインなら、WhatsAppはメッセージをキューに積みます。既読確認によって、ユーザーがあなたの返信を見たかどうかが分かります。この情報は、AIの振る舞いにとって価値があります:
- ユーザーは最後の3通を読んだのに返信しなかった? なら、送信を止めるべきかもしれません。
- 3日後に戻ってきた? その間の空白を、自然に認めましょう。
5. 複数デバイスの考慮
WhatsApp Web、Telegram Desktop——ユーザーは複数の端末からメッセージングにアクセスします。AIのWebhook受信側は、重複排除と、これらの接点間での一貫した状態維持を扱う必要があります。
連携レイヤー
ほとんどのメッセージングプラットフォームの統合は、次の2つのアプローチのいずれかを使います:
公式API — WhatsApp Business API、Telegram Bot API。クリーンで、承認されており、制限もあります。ビジネス用途には良い一方で、コンパニオン型のやり取りでは制限されることが多いです。
プロトコルレベルの統合 — GramJS(Telegram)のようなライブラリ、または非公式のWhatsAppブリッジ。より多くの機能を使えますが、壊れやすさも増します。接続、セッション、レート制限を慎重に管理する必要があります。
理想的なアーキテクチャは、多くの場合、この両方を組み合わせます。可能な範囲では公式APIで信頼性を確保し、公式APIがサポートしない機能についてはプロトコルレベルのアクセスを使うのです。
学んだこと
この領域で数か月過ごした後、いくつかの学びが際立ってきました:
- レイテンシ(応答までの遅延)は品質よりも重要です。2秒で良い応答を返すことは、10秒で素晴らしい応答を返すことよりも勝ります。人々は、メッセージングがリアルタイムに感じられることを期待しています。
- 先回りのメッセージングが決定的なキラー機能です。AIが先に送ってくる——良い朝のメッセージ、安否確認、ふとした考え——といったものは、どんなモデル改善よりもエンゲージメントを生みます。
- プラットフォームの制約は“機能”です。WhatsAppのUXに制約されることで、シンプルさが強制されます。ボタンも、カルーセルも、複雑なUIもありません。あるのは会話だけです。実は、それが“本物っぽさ”を生み出しているのです。
AIのメッセージングプラットフォーム時代は、ようやく始まったばかりです。そして、AIのコンパニオンが主流になるのはこの流れだと私は思っています。
