| 月額のSaaSサブスクリプションを置き換える旅をしています。まずはWisprFlowから。 そこで、代替としてMacParakeet(MacOSのみ)を作りました。無料で、GPLの下でオープンソースです! 私は主に自分が必要とするものに集中して、それは次のように絞られました: さらに、YouTubeの文字起こし内容とチャットできるなど、いくつか追加機能も入れました(ローカルのollama、またはopenaiやclaudeのようなクラウドベンダーでの連携が利用可能です)。これはNVIDIAのParakeetモデル(0.6B-v3)をFluidAudio経由で動かしていて、英語のリアルタイム文字起こしでは最高のパフォーマンスです。60分の音声が<30秒で文字起こしされます(もちろん、最初にローカルモデルが一度読み込まれた後です)。WERも非常に低いです。 他にも同様のアプリはたくさんあって、より幅広い機能を備えていますが、これは自分のために作ったもので、これからも「文字起こし/ディクテーションのアプリはたくさんあるけれど、このアプリは自分のものだ」という精神で改良を続けます(badlogicgameのpi agentへのオマージュです)。 仕組み 制限: このアプリは現在、生産(リリース)から約3週間で、これまでに300ダウンロードされています。発見はほとんどがオーガニックなGoogle検索経由です。私は継続的に修正と改良を行っています。いずれにせよ、WisprFlowへのサブスクリプションはキャンセルしました(とても良いアプリで、何か月も私の役に立ってくれました)が、ParakeetのようなローカルASRモデルやFluidAudioのようなランタイムは、無視できないほどレベルが上がってきました。 気に入ってもらえたら嬉しいです。ぜひ教えてください! Webサイト - https://www.macparakeet.com/ 追伸。私は韓国語/中国語のYouTubeコンテンツも視聴しているので、近いうちにアジア言語の文字起こし向けにqwen3-asrの対応を追加します。 [link] [comments] |
MacParakeet - Mac Silicon上で動く、WisprFlowの無料・オープンソース代替
Reddit r/LocalLLaMA / 2026/3/26
💬 オピニオンSignals & Early TrendsTools & Practical Usage
要点
- 「MacParakeet」はMac(Apple Siliconのみ)で動く、WisprFlowの代替を目指したフリーかつオープンソース(GPL)アプリとして紹介されています。
- 主要機能として、ホットキーで任意アプリにディクテーション結果を貼り付けるUI/UX、YouTubeの文字起こしと複数形式(TXT/Markdown/SRT/VTT/DOCX/PDF/JSON)へのエクスポートが挙げられています。
- ローカル/クラウドのLLM連携により、YouTube文字起こしの内容を使ったチャットや要約を行え、ローカルASRはNVIDIA Parakeet(0.6B-v3)をFluidAudio経由でリアルタイム文字起こしする構成です。
- 録音/動画ファイルの文字起こし、yt-dlpによるYouTube URL処理、話者分離(ダイアライゼーション)や不必要語の除去など、文字起こし後の整形パイプラインにも対応しています。
- 限界として英語が最適で、韓国語/日本語/中国語などの幅広い多言語対応は想定されず、まずは英語中心の精度と速度を強みにしています。