表形式データの検索ロバスト性を表現の安定性で改善する

arXiv cs.CL / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

Transformerベースの表データ検索は、テーブルの意味が同じでもCSV/TSV/HTML/Markdown/DDLのようなシリアライズ方法の選択に強く影響され、埋め込みや検索結果が変わり得る。
本論文は、シリアライズ別の埋め込みを共通の意味信号に対するノイズの多い「見え」とみなし、フォーマット由来のばらつきを抑えるための正準表現としてセントロイド（平均）表現を用いることを提案する。
実験では、複数のベンチマークとリトリーバ族にわたり、セントロイド表現が個別のシリアライズ形式よりも（MPNet、BGE-M3、ReasonIR、SPLADEなどで）集計した総当たり比較で概ね優れることを示す。
さらに、凍結したエンコーダ上に軽量な残差ボトルネックアダプタを追加し、単一シリアライズの埋め込みをセントロイド目標へ写像することで、主に密なリトリーバでロバスト性を高めるが、疎な語彙ベース検索では効果が小さいことが分かる。
総じて、シリアライズ感度が検索のばらつきの主要因であることを特定し、幾何学的な事後補正によってシリアライズ非依存な表データ検索を実現できる可能性を示している。

要旨: Transformerベースの表（テーブル）検索システムは、構造化された表をトークン列に平坦化し、その結果、表の意味論が変わらない場合でも、シリアライズ（直列化）の選択に対して検索が敏感になります。 $exttt{csv}$ 、 $exttt{tsv}$ 、 $exttt{html}$ 、 $exttt{markdown}$ 、および $exttt{ddl}$ のような意味的に同等なシリアライズは、複数のベンチマークおよびリトリーバ（検索器）ファミリにおいて、大幅に異なる埋め込みと検索結果を生みうることを示します。この不安定性に対処するために、シリアライズの埋め込みを、共有された意味信号のノイズを含む観測（ビュー）として扱い、その重心（centroid）を正準的なターゲット表現として用います。重心の平均化は、形式（フォーマット）固有の変動を抑制し、表ごとに生じる形式によるシフトが異なる場合には、異なるシリアライズ間で共通する意味内容を回復できることを示します。実験的には、重心表現は、 $exttt{MPNet}$ 、 $exttt{BGE-M3}$ 、 $exttt{ReasonIR}$ 、および $exttt{SPLADE}$ における集計されたペアワイズ比較において、個別の形式よりも優れます。さらに、凍結したエンコーダの上に軽量な残差ボトルネック・アダプタを導入し、単一シリアライズの埋め込みを重心ターゲットへ写像しつつ、分散を保持し、共分散正則化を強制します。このアダプタは、いくつかの密（dense）な検索器に対して頑健性を改善しますが、改善の大きさはモデル依存であり、疎な語彙（sparse）による語彙検索ではより弱いです。これらの結果は、シリアライズの感度が検索の分散の主要因であることを明らかにし、シリアライズ不変な表検索に対する事後的な幾何学的補正の有望さを示します。