Siriが声を認識する仕組み!波形と周波数分解で紐解く3つの秘密
こんにちは、こまてんです。
スマホに向かって「明日の天気は?」と話しかけると、すぐさま答えてくれるSiri。今や当たり前の光景になりましたが、ふと「どうして機械が人間の言葉を理解できるんだろう?」と不思議に思ったことはありませんか。
たまに「タイマーを3分にセットして」と頼んだのに「サンマのレシピですね」なんてトンチンカンな答えが返ってきて、思わず笑ってしまうこともありますよね。実は、機械にとって人間の曖昧な声を正確に聞き取るのは、めちゃくちゃハードな作業。
私も以前、徹夜明けのガラガラ声でSiriに話しかけたら、見事にガン無視されたことがあります。あの時は「AIにまで見放されたか……」と少しへこみましたが、仕組みを知ると「そりゃ認識できないわけだ」と妙に納得してしまいました。
この記事では、Siriが私たちの声を認識する裏側、特に 波形と周波数分解 という少し難しそうなテーマを、徹底的にわかりやすく解説します。
これを読めば、スマホの中で起きている魔法のような処理の正体が掴めるはず。次にSiriへ話しかけるとき、ちょっとだけ優しい気持ちになれるかもしれません。
1. そもそも「音」の正体って何?波形をイメージしてみよう
Siriがどうやって言葉を理解しているかを知るには、まず「音とは何か」をおさらいしておく必要があります。
音の正体は、ズバリ 空気の震え 。
私たちが声帯を震わせて声を出した瞬間、周りの空気がブルブルと振動し、それが波のように伝わっていきます。この目に見えない波のことを 音波 と呼びます。
水の波紋を想像してみる
池に石を投げ入れたとき、水面が波打って円を描くように広がっていきますよね。音もあれとまったく同じ。空気を媒体にして、波が全方位に広がっていくイメージ。
そして、その波の形を描き出したものが 波形 です。
波形には、大きく分けて2つの特徴があります。
波の高さ(振幅):音の大きさを表す。高い波ほど大きな音。
波の詰まり具合(周波数):音の高さを表す。ギュッと詰まっている波ほど高い音。
怒っているときの大きな声は波が高くなり、リラックスしているときの低い声は波がゆったりとした形になります。Siriはまず、この「空気の震えの波」をスマホのマイクでキャッチするところから仕事を始めているわけです。
2. スマホの中で起きていること:音をデータに変換する
マイクで音の波をキャッチしたとしても、そのままではただの「空気の震え」に過ぎません。スマホの頭脳であるコンピューターは、数字しか理解できない不器用なやつ。
そこでSiriは、キャッチした音波を デジタルデータ に変換するという翻訳作業を行います。
波を細かく切り刻む「サンプリング」
滑らかなカーブを描く音の波形を、コンピューターが理解できるカクカクのデジタルデータにする。この作業を サンプリング (標本化)と呼びます。
例えるなら、パラパラ漫画。
滑らかに動く人間の動作を、1枚1枚の静止画に切り分けてノートに描いていきますよね。サンプリングもこれと同じで、1秒間の音の波を何万回も細かく切り刻んで、「ここは波の高さが3」「ここは5」というように数字として記録していくのです。
CDの音質だと、なんと1秒間に44,100回も波の高さを測って数字にしています。凄まじいスピード感。
こうして数字の羅列に変換されたことで、Siriはようやく「ふむふむ、こんな感じの音が入力されたぞ」とデータを扱えるようになります。
3. 音をバラバラに解体!「周波数分解」という必殺技
デジタルデータになったとはいえ、まだ安心はできません。私たちが普段発している声は、とんでもなく複雑な波の形をしているからです。
「あ」という一つの言葉を発しただけでも、その中には低い音や高い音、さらには周囲の雑音(エアコンの音や車の走る音など)がたくさん混ざり合っています。
混ざり合ったぐちゃぐちゃの波形のままでは、Siriも「なんだこの複雑な波は……」と混乱してしまうでしょう。そこで登場するのが、今回の最大の目玉である 周波数分解 という必殺技。
光のプリズムのように音を分ける
理科の実験で、太陽の光を三角柱のガラス(プリズム)に通すと、虹色に分かれるのを見たことがありませんか。
実は、音の世界でも同じことができます。
複雑に絡み合った声の波形を、「低い音の波」「中くらいの音の波」「高い音の波」といった具合に、シンプルな成分ごとにバラバラに解体する。これが 周波数分解 です。
ちょっと専門用語を使うと フーリエ変換 という数学の魔法を使っているのですが、名前は覚えなくても大丈夫。要は「ミックスジュースを、リンゴ、バナナ、牛乳の成分にきれいに分けるような技術」だと思ってください。
どうしてわざわざ分解するの?
では、なぜわざわざ音を分解する必要があるのでしょうか。
それは、音を分解することで 声の特徴(指紋のようなもの) がくっきりと浮かび上がるから。
例えば「あ」と「い」という言葉。波形そのままだと違いが分かりにくいのですが、周波数分解をして成分を見てみると、「あ」の音は特定の高さの成分が強く、「い」の音はまた別の高さの成分が強い、という明確な違いが現れます。
これによって、Siriは「あ、この成分の組み合わせは『あ』という言葉だな!」と、正確に聞き分けることができるようになるのです。雑音の成分だけを特定して、綺麗に取り除くこともできるようになります。
4. パターンを照合して言葉を当てるSiriの頭脳
音をデジタル化し、周波数分解で特徴を洗い出す。ここまでの下準備が整って、ようやくSiriのAI(人工知能)が本領を発揮します。
抽出された声の特徴データを、Siriの頭脳に入っている膨大な 音の辞書 と照らし合わせる作業の始まり。
文脈を読むという高度なスキル
「この特徴は『き』」「これは『ょ』」「これは『う』」というように、音のピースを一つずつ拾い集めていきます。
しかし、日本語は同音異義語が多い厄介な言語。「きょう」という音のピースが揃っても、「今日」なのか「橋」なのか、それとも「凶」なのか迷ってしまいます。
ここでSiriは、前後の単語のつながりや文脈を推測します。
「『きょう・の・てんき』と続いているから、これは『今日』の確率が99%だな!」と、瞬時に計算して答えを導き出しているわけです。
RPGゲームで例えるなら、バラバラのアイテムのかけらを合成して、最強の武器を作り出すような感覚に近いかもしれません。
5. まとめ:Siriはあなたの声を必死に読み解いている
いかがでしたでしょうか。
私たちが何気なく「Hey Siri」と呼びかけてから返事をするまでのわずか数秒の間に、スマホの中ではとんでもない作業が行われています。
マイクで 空気の震え(波形) をキャッチする。
音の波を切り刻んで デジタルデータ に変換する。
複雑な音を 周波数分解 でシンプルな成分にバラバラにする。
抽出した特徴を辞書と照らし合わせ、文脈を推測して言葉を特定する。
これだけの複雑なプロセスを瞬時にこなしていると知ると、たまに聞き間違えられることがあっても「まあ、裏でこんなに頑張ってるんだから仕方ないか」と許せる気がしてきませんか。
技術は日々進化しています。これから先、もっと自然に、まるで人間同士で話しているかのようにSiriと会話できる未来が、すぐそこまで来ているのかもしれません。
もし似た経験や気づきがありましたら、コメントに残していただけますと執筆の励みになります!遅くなるかもしれませんが、必ずご返信します!
【あなたにおすすめの記事はこちら】
Siriの音声認識に欠かせない「波形」の考え方は、実はスマホの画像処理とも深く関わっています。デジタルデータがどのように作られているか、さらに詳しく知りたい方はこちらの記事がおすすめです。
音声認識と同様に、AIがどのようにして「形」を捉えているのかを直感的に理解できる入門ガイドです。数学が苦手な方でも、技術の裏側にある面白さを発見できる内容になっています。
Siriのような最新テクノロジーを支える「AI」という存在。その進化の中で、私たち人間がどのような役割を持ち、どう共存していくべきかという一歩先の視点を提案している記事です。
