| 私はYotoのおもちゃを使っている甥のために、オープンソースのストーリーテリングおもちゃを作りました。姉は彼が物語の中のキャラクターと話すことがあると教えてくれて、会話の転記をクラウドプロバイダへ送らずに、彼がそのキャラクターと実際に話せるようにできたら面白いのではと思いました。 これは私の音声AIスタックです:
このリポジトリはApple Siliconチップ(M1/2/3/4/5)での推論をサポートしますが、近いうちにWindowsの追加を予定しています。プロジェクトについての感想をぜひお聞かせください。 このGitHubリポジトリ: https://github.com/akdeb/open-toys [リンク] [コメント] |
Qwen3-TTSを搭載した、画面のない子ども向けストーリーテリングおもちゃを作りました
Reddit r/LocalLLaMA / 2026/3/16
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 著者は、クラウドプロバイダへ文字起こしを送信することなく、ストーリーのキャラクターと対話型の会話を可能にする、子ども向けのオープンソースで画面のないストーリーテリングおもちゃを作りました。
- Arduino 上の ESP32 を含む音声AIスタックを使用しており、STT(Whisper)と TTS(Qwen3-tts、chatterbox-turbo)には MLX-audio、視覚言語モデルには MLX-vlm(Qwen3.5-9B、Mistral)、LLM には MLX-lm(Qwen3、Llama3.2)、MacBook とのインターフェースには Secure WebSockets を使用しています。
- このプロジェクトは Apple Silicon(M1/M2/M3/M4/M5)上でのデバイス上推論をサポートしており、将来的には Windows サポートを予定しています。
- コードは open-toys の GitHub リポジトリ(https://github.com/akdeb/open-toys)で利用可能で、コミュニティからのフィードバックを歓迎します。

