Abstract
Killingbackらによって提案されたHypencoderは、標準的なバイエンコーダで用いられる固定の内積スコアリング関数を、クエリ固有のニューラルネットワーク(q-net)で置き換える検索フレームワークである。このq-netの重みは、文脈化されたクエリ埋め込みからハイパーネットワークによって生成される。本設計により、独立したクエリと文書のエンコーディングを保ちつつ、より表現力の高い関連性推定が可能になる。本研究では、Hypencoderの再現性に関する調査を行い、さらに3つの方向において元の分析を拡張する。私たちの再現実験では、Hypencoderが、同様に学習したバイエンコーダのベースラインを、ドメイン内およびドメイン外のベンチマークで上回ること、また提案された効率的な探索アルゴリズムが、性能低下を最小限に抑えながらクエリのレイテンシを大幅に削減することを確認した。難しい検索タスクでは部分的な裏付けが得られる。すなわち、HypencoderはDL-HardおよびFollowIRではベースラインを上回るが、TREC TOTでは上回らない。TREC TOTでは、チェックポイントの非互換性と微調整の感度が、完全な検証を複雑にしている。再現実験の範囲を超えて、3つの拡張を調査する。(i)~代替の事前学習エンコーダをHypencoderフレームワークに統合する。ここでは、性能向上はエンコーダと微調整戦略に依存することを見いだす。(ii)~Faissベースのバイエンコーダ・パイプラインに対してクエリのレイテンシを比較し、全探索および効率的探索のいずれの設定でも、標準的なバイエンコーダによる検索がより速いことを明らかにする。そして(iii)~敵対的頑健性を評価する。そこでは、q-netの非線形スコアリングは、内積スコアリングに比べて一貫した頑健性の不利をもたらさないことを見いだす。私たちのコードは https://github.com/arneeichholtz/Hypencoder-reprod で公開されている。