私は一般的なLLMの利用以外に、自分のマシン上でローカルAIを使う用途を見つけることに没頭していました。こういったものの発見をもっと掘り下げるべき方向性が他にあるのかもよく分からなかったので、とにかく探索していました。以下は私が得た発見のまとめです。
寄り道のようなものや、ほかのコレクションもぜひ共有してほしいです。
やや「よくある」アプリ / モデル
音声から音声への翻訳アプリ。オンラインで音声を見つけて、ある声から別の声にマッピングするのはかなり簡単でした。いくつかひどい講義の録音を整えるのに使いました。録音をオバマっぽい音にしたいときに使うものです。
ローカルで動かすさまざまなモデルを使って、あらゆる種類のテキストを音声に変換するのにとても便利です。たとえば、文字起こしを電子書籍にするなど。特定のアップロード形式を解析するための良いツールも付いています。EPUBからオーディオブックを作るのに使いました。
多くの人が使っているのは知っていますが、ベータ版のDesktop版もあります。コンテナやサーバーなどを動かすのが嫌なので、だいぶ頭の痛さが減ります。
TTSモデルとSTTモデルを使えるようにする設定もあり、音声同士の会話体験ができます。
多数のAIアプリをホスティングするための良いプログラムです。とりあえずクリックして何かを試して、すぐ離れるような用途に向いています。ただし、多くのアプリがクラッシュするので少しイライラします。チェックイン回数が多いものを探すと良いです。Open Web UIを動かすためのインターフェースとしても良いです。
ボーカル(音声)文字起こしのための簡単な音声からテキスト。
あまり話題にされていないアプリ / モデル
モデルのパイプライン管理ツールのように見えますが、ローカルモデルとして使うにはエコシステムの理解が足りなくてよく分かりません。自分で多くをインストールしないといけないのか、それともプラグインの仕組みがどうなっているのかも確信がありません。外部プラグインを見るたびに、だいたい中国語で英訳が付いているものが多く、通常より星(スター)が少ないように見えるので、何をしているのが正しいのか不安になります。結局1時間ほど使ってみました。
これは良いのですが、PITA(面倒)。システムモニターを見て、実際にGPUを使っているか確認する必要があり、サイトから最新のベータ版をインストールしないといけません。設定も複雑です。多くの場面で、失敗しても静かに(サイレントに)起きがちです。
Meetily - クローズドキャプション用モデルがなぜか見つけにくい
これこそ最初に人々がSTTで使うものだと思うでしょうが、なぜかリアルタイムに使えるものを見つけるのが難しいです。Handyは、クローズドキャプションというよりはテキスト入力寄りです。
音声のアップスケーリング向けの良いパッケージですが、もっと良いものが存在してもよさそうだと感じました。
Long Form Speech Transcription
Parakeet 0.6b / VibeVoice / CohereTranscribe
なんでみんなwhisperを推しているのか分かりません。これらのほうがより正確で、幻覚(hallucinate)が少なく、さらに(もしくは)動作が速い、またはより多くの機能(話者タグ付けや音声アクティベーション)を提供します。GIMPとKritaみたいな感じです。whisperはYoutubeのデータで学習しているので幻覚を起こします。
hugging faceのほかのリーダーボードがここに掲載されていないのは変な感じがします。なぜか、ほとんどのASRフロントエンドは小さな用途向けに作られているように感じます。
マニアックな例
音楽を受け取り、midiファイルを生成します
ポルノの分類。
対応するモデルで立ち上げて、必要なら停止するために、別のcomposeのセットアップが必要かもしれません。OCDのメモ取りみたいな用途です。
探しているもの
ギャラリーからスライドショー
この機能はGoogleフォトやSamsungギャラリーにかなりありました。昔の2000年代のYouTubeチャンネルみたいなAMVジェネレーターのようなものなら…
AIビデオ編集
クリップを入れると、処理オプションを提示してくれるようなものがほしいです。たとえばアクションタグ付け、トピックのトランジション、無音とボーカルのアクティビティなど。
Voice Cloning -> singing :
Applioはその用途にかなり良さそうですが、必要な形式で「声を学習(train)」する方法を調べています。ほかのツールのように30秒のワンショットで学習できるツールがあるといいのですが、それで品質が下がるのかどうかは分かりません。
Speech editing
文字起こしを作って、発話の一部を再入力し、録り直しなしでも自然に聞こえるようにしたいという録音音声がたくさんありました。
良い画像 / 動画 / テキスト検索のフロントエンド
理想は、可能な限り埋め込み(embeddings)でタグ付けして整理できることです。ダブルクリックして設定し、フォルダを指定するだけで使えるようなものがほしいです。
Spoken Audio Cleanup
これもまた、なぜか見つけにくい? ステム分離ツールはありますが、これは独自のパイプラインが必要な気がします。どのモデルがこの用途に最適かは分かりません。
クリーンアップ用パイプライン付きのバッチ文字起こしフロントエンド
Audio cleanup -> voice activation -> asr -> transcription ->(理想的には)出力フォーマット、という一連をバッチで回せるようなものがほしいです。バッチ文字起こしができるだけでも良いです。これが存在しないのは不思議です。
一般的な「Ollama」のような、ほかの用途
音声制作、会話分析などのための、一般的なAIパッケージやパイプライン。
発見の方法
AI関連リポジトリの統計をたどって検索する
- local-ai, speech-to-text, semantic-search, speech-enhancement
** Alternative To ** https://alternativeto.net/ 人気の有料ソフトのオープンソース代替を見つけるのに使う
発見のための方法、マニアックなモデル、またはほかの包括的なモデルのパッケージ化ツールについて提案があれば、ぜひ共有してもらえると嬉しいです!理想的には
- それなりのコミュニティ
- より新しい / 高性能なモデル
- 人気の有料ツールの代替。
[link] [comments]




