要約: Transformer に基づく自己教師付き音声モデル(S3Ms)はしばしば文脈的に位置づけられるが、それが意味する内容は未だ不明である。ここでは、単一フレームレベルのS3M表現が音素とその周囲の文脈をどのように符号化できるかに焦点を当てる。先行研究は、S3Ms が音素を構成的に表現することを示している。たとえば、音韻的ベクトルとしての有声音性、両唇音性、鼻音性といったベクトルが [m] のS3M表現に重ね合わせられている。この見方を拡張し、隣接する音素の列から得られる音韻情報も単一のフレームに構成的に符号化されると提案する。つまり、前の音素、現在の音素、次の音素に対応するベクトルが、単一のフレームレベルの表現内に重ね合わせられる。この構造には、相対的位置間の直交性を含むいくつかの性質があること、そして暗黙の音声的境界の出現があることを示す。総じて、我々の発見は文脈依存的なS3M表現の理解を深める。
返却形式: {"translated": "翻訳されたHTML"}




