WebRTCによるリアルタイム音声と永続クロスモデル記憶を備え、多モデルAIプラットフォームと生成機能一式を構築—無料アカウントは月1分の音声

Reddit r/artificial / 2026/4/25

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageIndustry & Market MovesModels & Research

要点

  • 記事では、OpenAIのWebRTC APIを使った超低遅延のリアルタイム・ツーウェイ音声チャットを提供する、多モデルAIプラットフォーム「AskSary」のリリースが紹介されています。
  • Claudeで始めてGPT-5.2に切り替えても会話が引き継がれるなど、モデルをまたいだ永続的なメモリ(クロスモデル記憶)を強調しています。
  • RAG(1件最大500MBのドキュメントを無制限にアップロード)に加え、画像生成、動画生成(複数プロバイダ)、音楽制作、3Dモデル作成など幅広い生成機能を備えています。
  • 多数のAIモデルをスマートな自動ルーティングまたは手動選択で利用でき、ログイン時に過去のセッションを参照して継続意思を尋ねるなどのパーソナライズ機能もあります。
  • 無料アカウントではクレジットカード不要で、リアルタイム音声を月1分提供することで試用を後押しする形です。
Built a multi-model AI platform with real-time WebRTC voice, persistent cross-model memory, and a full generation suite - free account gets 1 min voice/month

https://reddit.com/link/1sutga7/video/ktd3pxcam7xg1/player

ここ数か月、AskSaryを開発してきました。これはマルチモデルAIプラットフォームで、OpenAIのWebRTC APIを使ったリアルタイムの双方向音声チャットをついに公開しました。

可視化はあなたの声にリアルタイムに反応します。180の放射状周波数バーが発光する球の周りを回り、280の粒子がフルスクリーンキャンバス上を漂い、オーロラやリップル波が音声のピークで放たれ、さらに全体がクールな青(聞いているとき)から温かいバイオレット(話しているとき)へと色変化します。ほぼゼロ遅延、8種類の音声オプション。

asksary.com の無料アカウントを持っている人は、毎月リアルタイム音声を1分分もらって試せます。クレジットカードは不要です。

また、興味があれば、このプラットフォームには他にもたくさん作り込まれています:

モデル - GPT-5-Nano、GPT-5.2、GPT-5.2 Pro、O1 Reasoning、Claude Sonnet 4.6、Gemini 2.5 Flash、Gemini 3.1 Pro、Gemini Ultra、Grok 4、DeepSeek V3、DeepSeek R1 - スマートな自動ルーティング、または手動選択

メモリとコンテキスト - モデルをまたいだ永続メモリ。モバイルでClaudeから始めて、デスクトップでGPT-5.2に切り替えても、会話内容はすでに理解しています。さらに積極的なパーソナライズ:ログインのたびにチャットボットがあなたの過去のセッションを読み込み、何も入力する前に「続けたいですか?」というメッセージで始まります。

RAG - 各500 MBまでのドキュメントをアップロード、アップロード数は無制限。OpenAI Vector Storeを使って、任意のモデルでそれらとチャットできます

生成 - GPT-Image-1、Nano Banana Pro + フラックスエディタ(ビジュアル履歴付き)、Video Studio(Luma、Veo 3.1、Kling)、ElevenLabsとチャット内ビジュアライザー付きMusic Studio、STLエクスポート対応の3D Model Studio(近日公開)

ビルダー用ツール - Vision to Code、Web Architect、Game Engine、SQL Architect / Bug Buster / Git Guruなどを含むCode Lab

音声とオーディオ - リアルタイムチャット、Podcast Mode(AIボイス2つ、ダウンロード可能なMP3)、ボイスオーバー、ボイスメモ、Voice Tuner

生産性 - Slides、Docs、Pro Writer、ソーシャルツール、Business Suite、CV Creator、Daily Briefing、Market Watch

プラットフォーム - 30+のライブ壁紙、Custom Agents、フォルダ整理、スマート検索、メディアギャラリー、26言語+RTL、完全にカスタマイズ可能なUI

WebRTCの実装やその他のことについて質問があれば喜んで答えます。音声の可視化について、あなたはどう思うかぜひ聞かせてください。

submitted by /u/Beneficial-Cow-7408
[リンク] [コメント]