AI Navigate

Qwen3-TTSを搭載した、画面のない子ども向けストーリーテリングおもちゃを作りました

Reddit r/LocalLLaMA / 2026/3/16

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

著者は、クラウドプロバイダへ文字起こしを送信することなく、ストーリーのキャラクターと対話型の会話を可能にする、子ども向けのオープンソースで画面のないストーリーテリングおもちゃを作りました。
Arduino 上の ESP32 を含む音声AIスタックを使用しており、STT（Whisper）と TTS（Qwen3-tts、chatterbox-turbo）には MLX-audio、視覚言語モデルには MLX-vlm（Qwen3.5-9B、Mistral）、LLM には MLX-lm（Qwen3、Llama3.2）、MacBook とのインターフェースには Secure WebSockets を使用しています。
このプロジェクトは Apple Silicon（M1/M2/M3/M4/M5）上でのデバイス上推論をサポートしており、将来的には Windows サポートを予定しています。
コードは open-toys の GitHub リポジトリ（https://github.com/akdeb/open-toys）で利用可能で、コミュニティからのフィードバックを歓迎します。

I built a screen-free, storytelling toy for kids with Qwen3-TTS

私はYotoのおもちゃを使っている甥のために、オープンソースのストーリーテリングおもちゃを作りました。姉は彼が物語の中のキャラクターと話すことがあると教えてくれて、会話の転記をクラウドプロバイダへ送らずに、彼がそのキャラクターと実際に話せるようにできたら面白いのではと思いました。

これは私の音声AIスタックです：

Arduino上のESP32を介してVoice AIパイプラインと連携させる
STT（Whisper）とTTS（`qwen3-tts` / `chatterbox-turbo`）のためのMLX-audio
Qwen3.5-9B や Mistral などのビジョン言語モデルを使用する MLX-vlm
Qwen3、Llama3.2 などのLLMを使う MLX-lm
Macbookと連携するためのセキュアWebSocket

このリポジトリはApple Siliconチップ（M1/2/3/4/5）での推論をサポートしますが、近いうちにWindowsの追加を予定しています。プロジェクトについての感想をぜひお聞かせください。

このGitHubリポジトリ: https://github.com/akdeb/open-toys

投稿者 /u/hwarzenegger
[リンク] [コメント]

関連記事

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

note

提言：CAFという“型”で成功の再現性を高める

日経XTECH

Llama 3.1 8B と CrewAI を用いて、私の RTX 5070 Ti 上で100% ローカルに動作する自律的なAI裁判所を構築しました。エージェント同士は文脈に基づく協力を通じて互いに議論します。

Llama 3.1 8B と CrewAI を用いて、私の RTX 5070 Ti 上で100% ローカルに動作する自律的なAI裁判所を構築しました。エージェント同士は文脈に基づく協力を通じて互いに議論します。

Reddit r/LocalLLaMA

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

Dev.to

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。