Googleは月曜日、オフライン・ファーストの口述入力(ディクテーション)アプリ「Google AI Edge Eloquent」をiOS向けに、ひっそりとリリースした。これは、Wispr Flow、SuperWhisper、Willowなどと競合することを狙ったものだ。
このアプリは無料でダウンロードでき、Gemmaベースの自動音声認識(ASR)モデルをダウンロードすれば、スマホで口述入力を開始できる。アプリ内ではライブの文字起こしを確認でき、いったん一時停止を押すと、アプリが「うーん」や「あー」といったフィラー(つなぎ)ワードを自動的に除外し、テキストを整える。
文字起こしの下には、「Key points(要点)」「Formal(フォーマル)」「Short(短め)」「Long(長め)」のようなオプションがあり、テキストを変換できる。

ローカルのみの処理を使うために、クラウドモードをオフにすることもできる。(クラウドモードがオンの場合、アプリはテキストのクリーンアップにクラウドベースのGeminiモデルを使用する。)必要に応じて、Google AI Edge EloquentはGmailアカウントから特定のキーワードや名前、専門用語(ジャーゴン)を取り込むことができる。さらに、独自のカスタム単語をリストに追加することも可能だ。
アプリは文字起こしセッションの履歴を表示し、すべてを検索できるようにしている。また、直近のセッションで入力された単語、1分あたりの単語数(WPM)スピード、発話した単語の総数も表示できる。
同社のApp Storeの説明には、「Google AI Edge Eloquentは、自然な話し言葉と、プロフェッショナルでそのまま使えるテキストの間のギャップを埋めるよう設計された、進化した口述入力アプリです。つまずきやフィラー(つなぎ)ワードをそのまま逐語で文字起こしする通常の口述入力ソフトとは異なり、EloquentはAIを使って意図した意味を捉えます。『うーん』『あー』や、文中での自己訂正を自動的に編集し、きれいで正確な文章を出力します」とある。

現時点ではアプリはiOSでのみ提供されているものの、App Storeの説明にはAndroid版について言及されている。(追加情報を得るためにGoogleへ連絡しており、返答があれば記事を更新する。)
説明によると、Eloquentは「シームレスなAndroid連携」を提供し、ユーザーのデフォルトキーボードとして設定することで、あらゆるテキストフィールドでシステム全体にアクセスできる。加えて、アプリはフローティングボタン機能も使えるようになる。これは、Wispr FlowがAndroidで使っているものと同様で、どこからでも文字起こしに簡単にアクセスできる。
AI搭載の文字起こしアプリは、音声からテキストへのモデルが進化するにつれて、ユーザーの間で人気を集めています。この実験的なアプリで、Googleがこの流れに加わります。このテストが成功すれば、Androidでも文字起こし機能が改善されるのが見られるかもしれません。




