予測-測定のギャップ:意味表現を科学的道具へ向けて

arXiv cs.CL / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 予測の最適化のための埋め込みと、意味分析のための科学的道具として使用可能な埋め込みとの間にある予測-測定ギャップを特定する。
  • 「科学的有用性」を、幾何学的可読性、解釈可能性、言語的証拠への追跡性、非意味的な混乱要因への頑健性、意味方向に対する回帰型推論との互換性を強調する客観的ファミリーとして定義する。
  • 静的語彙埋め込みと文脈的トランスフォーマー表現を評価し、透明な測定には静的空間が適している一方、文脈的空間はより豊かな意味を提供するが、信頼性のある推論には幾何学と解釈性の課題を生じさせる。
  • 課題設定のアジェンダを概説する:(i) 勾配と抽象化のための幾何学を先行設計とする設計、心理学的に特権づけられたレベルで制約された階層的空間を含む;(ii) ジオメトリを再条件付けしてノイズの影響を減らす可逆的後処理変換;(iii) 信頼性があり追跡可能な意味推論のための意味地図と測定志向の評価プロトコル。
要旨: テキスト埋め込みは計算的社会科学と心理学の中核となり、意味の測定をスケール可能にし、混合手法推論を可能にしている。しかし多くの表現学習は予測と検索のために最適化・評価されており、予測と測定のギャップを生み出す。独自の要件群—科学的有用性—を提案し、幾何学的読みやすさ、解釈可能性、言語的証拠への追跡性、非意味的混乱要因への頑健性、意味方向に対する回帰型推論との互換性を強調する。意味の理解に関する認知・神経心理学的見解に基づき、本論は静的語彙埋め込みと文脈的トランスフォーマー表現をこれらの要件に対して評価する。静的空間は透明な測定には魅力的である一方、文脈的空間はより豊かな意味を提供するが、意味を他の信号と絡め、推論を複雑化させる幾何学的・解釈性の問題を生じさせる。続いて本論は、(i)勾配と抽象化のための幾何学を先行設計とする設計、心理学的に特権的とされるレベルで制約された階層的空間を含む;(ii)埋め込みの幾何学を再条件付けしてノイズの影響を減らす可逆的後処理変換;(iii)信頼性が高く追跡可能な意味推論のための意味地図と測定志向の評価プロトコル、を軸とするコース設定のアジェンダを概説する。分野がスケール優先の進歩の限界を論じる中、測定準備が整った表現は原理的な新しいフロンティアを提供する。