AI Navigate

Qwen3-TTSを搭載した、画面のない子ども向けストーリーテリングおもちゃを作りました

Reddit r/LocalLLaMA / 2026/3/16

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 著者は、クラウドプロバイダへ文字起こしを送信することなく、ストーリーのキャラクターと対話型の会話を可能にする、子ども向けのオープンソースで画面のないストーリーテリングおもちゃを作りました。
  • Arduino 上の ESP32 を含む音声AIスタックを使用しており、STT(Whisper)と TTS(Qwen3-tts、chatterbox-turbo)には MLX-audio、視覚言語モデルには MLX-vlm(Qwen3.5-9B、Mistral)、LLM には MLX-lm(Qwen3、Llama3.2)、MacBook とのインターフェースには Secure WebSockets を使用しています。
  • このプロジェクトは Apple Silicon(M1/M2/M3/M4/M5)上でのデバイス上推論をサポートしており、将来的には Windows サポートを予定しています。
  • コードは open-toys の GitHub リポジトリ(https://github.com/akdeb/open-toys)で利用可能で、コミュニティからのフィードバックを歓迎します。
I built a screen-free, storytelling toy for kids with Qwen3-TTS

私はYotoのおもちゃを使っている甥のために、オープンソースのストーリーテリングおもちゃを作りました。姉は彼が物語の中のキャラクターと話すことがあると教えてくれて、会話の転記をクラウドプロバイダへ送らずに、彼がそのキャラクターと実際に話せるようにできたら面白いのではと思いました。

これは私の音声AIスタックです:

  1. Arduino上のESP32を介してVoice AIパイプラインと連携させる
  2. STT(Whisper)とTTS(`qwen3-tts` / `chatterbox-turbo`)のためのMLX-audio
  3. Qwen3.5-9B や Mistral などのビジョン言語モデルを使用する MLX-vlm
  4. Qwen3、Llama3.2 などのLLMを使う MLX-lm
  5. Macbookと連携するためのセキュアWebSocket

このリポジトリはApple Siliconチップ(M1/2/3/4/5)での推論をサポートしますが、近いうちにWindowsの追加を予定しています。プロジェクトについての感想をぜひお聞かせください。

このGitHubリポジトリ: https://github.com/akdeb/open-toys

投稿者 /u/hwarzenegger
[リンク] [コメント]