学習プロジェクトとして音声操作の「三目並べ(Tic-Tac-Toe)」を作ってみた

Reddit r/LocalLLaMA / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、ASR(文字起こし)→ SLMによる意図(インテント)解析 → ゲームのアクション実行 → TTS(結果の読み上げ)というエンドツーエンドの流れを学ぶために、音声操作の三目並べゲームを学習プロジェクトとして作成しました。
  • 約1,000件の自作データセットを作り、Gemma 4Bをファインチューニングして、音声入力をインテントに対応づけるとともに、ゲーム用のカスタム・ツール呼び出しを実行できるようにしました。
  • 提供されたGitHubリポジトリからプロジェクトをクローンして試せる、完成度のある実装を含んでいます。
  • 著者は、実際に動く具体的なプロジェクトを作ることで学びが大きかったと述べつつ、マシン環境によって挙動が変わり得る点にも言及しています。
  • 最初はリポジトリリンクの問題(非公開だった)やモデレーションによる削除がありましたが、再投稿によって今度はアクセス可能になっているはずです。

こんにちは、

まず最初に、これがもしかするとくだらないプロジェクトに見えるかもしれないことは分かっていますが、私は微調整(finetuning)や、ASR(音声認識:Transcription) -> SLM(意図解析:Intent Parsing) -> アクションの実行 -> TTS(結果の合成:Synthesizing results)という一連のフル・パイプラインを活用することについて学ぶために、教育目的として自分用に作りました。

私は、入力の意図を解析し、自作のゲーム用関数を呼び出すために、Gemma4-4B をファインチューニングするための、約 1000 件の自作データセットを生成しました。

よければクローンして試してみてください https://github.com/moedesux/voice-tic-tac-toe

ここにいる多くの方にとっては基本的な知識かもしれないのは分かっていますが、この具体的なプロジェクトをやったことで、YouTube の動画を何時間も見ているよりもたくさん学べました。もし誰かの学習の道のりに役立てられるなら、私としてもとても嬉しいですし、それに価値があることになると思います。

追伸(P.S.):(これはマシン上で完璧に動きます。YMMV )

追追伸(P.P.S.)最初の投稿は、友達がリポジトリのリンクが動いていないと言ったので慌てて削除してしまいました。原因は、リポジトリが非公開だったのを忘れていたことでした(笑)。再投稿でもう一度すみません。今度こそ動くはずです

P.P.P.S 2つ目の投稿は、mod(管理者)の方が誤って削除してしまいましたが、mod の u/ttkciar さんが親切にそれを復元してくれて、再投稿することで「新着(New)」の並び順に表示できるオプションを提示してくれたので、私は彼の提案を受け入れました

提出者: /u/dabiggmoe2
[link] [comments]