こんにちは、
まず最初に、これがもしかするとくだらないプロジェクトに見えるかもしれないことは分かっていますが、私は微調整(finetuning)や、ASR(音声認識:Transcription) -> SLM(意図解析:Intent Parsing) -> アクションの実行 -> TTS(結果の合成:Synthesizing results)という一連のフル・パイプラインを活用することについて学ぶために、教育目的として自分用に作りました。
私は、入力の意図を解析し、自作のゲーム用関数を呼び出すために、Gemma4-4B をファインチューニングするための、約 1000 件の自作データセットを生成しました。
よければクローンして試してみてください https://github.com/moedesux/voice-tic-tac-toe 。
ここにいる多くの方にとっては基本的な知識かもしれないのは分かっていますが、この具体的なプロジェクトをやったことで、YouTube の動画を何時間も見ているよりもたくさん学べました。もし誰かの学習の道のりに役立てられるなら、私としてもとても嬉しいですし、それに価値があることになると思います。
追伸(P.S.):(これはマシン上で完璧に動きます。YMMV )
追追伸(P.P.S.)最初の投稿は、友達がリポジトリのリンクが動いていないと言ったので慌てて削除してしまいました。原因は、リポジトリが非公開だったのを忘れていたことでした(笑)。再投稿でもう一度すみません。今度こそ動くはずです
P.P.P.S 2つ目の投稿は、mod(管理者)の方が誤って削除してしまいましたが、mod の u/ttkciar さんが親切にそれを復元してくれて、再投稿することで「新着(New)」の並び順に表示できるオプションを提示してくれたので、私は彼の提案を受け入れました
[link] [comments]




