ささやき声を聞き取るのに最適な小型の音声認識(STT)モデルは?

Reddit r/LocalLLaMA / 2026/5/20

💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage

要点

  • 投稿では、ミッドレンジのスマホ上で動かせる小型の音声認識(STT)モデルとして、ささやき声を最もよく認識できるものを探しています。
  • 社内外の制約ではなく「実用性」を重視しており、大規模基盤に依存せず端末上で動作することが前提になっています。
  • さらに、既存のSTTモデルをささやき声に最適化するよう微調整(ファインチューニング)できるのかという点も議題にしています。
  • 背景には、電話に向かって話すことが社会的に適切でない場面での代替手段を見つけたいという狙いがあります。

電話で話すのは、すべての社交的な状況において適切ではありません。

中程度の性能の電話で動かせるSTTモデルで、ささやき声の発話を認識するのが得意なものはどれですか?

既存のSTTモデルを、ささやき声の発話の認識がより得意になるように微調整(finetune)できますか?

ありがとうございます。

によって投稿 /u/crantob
[リンク] [コメント]