AI Navigate

トークン化と増強の比較:IMUベースのオンライン手書き認識における作家間・作家内ばらつきの系統的研究

arXiv cs.LG / 2026/3/19

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、IMUベースのオンライン手書き認識において、作家間および作家内のばらつきを扱うために、サブワードトークン化(ビグラム)と連結ベースのデータ拡張という2つの戦略を系統的に比較する。
  • 作家独立分割では、ビグラムトークン化が未知のスタイルへの一般化を改善し、WERを15.40%から12.99%へ低下させた。
  • 作家依存分割では、トークン化は語彙分布のシフトにより性能が低下する一方、連結ベースのデータ拡張は強力な正則化として機能し、文字誤り率を34.5%、WERを25.4%低減させる。
  • 短く低レベルなトークンはモデルの性能に寄与することがわかり、連結ベースのデータ拡張は比例的に拡張したトレーニングを上回ることがある。
  • 結果はばらつき依存の効果を示す。トークン化は作家間のばらつきを緩和し、連結ベースのデータ拡張は作家内の分布の希薄さに対処することで、データ分布に基づく手法選択を導く。

要約: 慣性計測ユニット(IMU)ベースのオンライン手書き認識は、異なる書字面で収集された入力信号の認識を可能にする一方で、不均一な文字分布と筆者間のばらつきによって依然として課題があります。 本研究では、これらの課題に対処するための二つの戦略、サブワードトークン化と連結ベースのデータ増強を体系的に調査します。OnHW-Words500データセットでの実験は、筆者間のばらつきと筆者内のばらつきの取り扱いに明確な二分法を示しています。筆者独立スプリットでは、ビグラムトークン化による構造的抽象化は未知の書字スタイルへの適応性能を著しく向上させ、語彙エラー率(WER)を15.40%から12.99%に低減します。これに対して、筆者依存スプリットでは、訓練セットと検証セット間の語彙分布のずれのためトークン化は性能を低下させます。代わりに、提案する連結ベースのデータ増強は強力な正則化として機能し、文字エラー率を34.5%、WERを25.4%低減します。さらに分析すると、短く低レベルなトークンはモデルの性能を後押しし、連結ベースのデータ増強による性能向上は、訓練を比例的に延長して得られる改善を上回ることが示されました。これらの知見は、明確な分散依存効果を示しています。サブワードトークン化は主に筆者間の文体的ばらつきを緩和する一方、連結ベースのデータ増強は筆者内の分布的希薄性を効果的に補う、ということです。