検索者の好みに合わせた大規模言語モデル
arXiv cs.CL / 2026/3/12
📰 ニュースModels & Research
要点
- 本論文は、オープンエンド生成検索のために設計された最初の大規模言語モデル SearchLLM を紹介し、アイテム中心のランキングから回答中心の合成へと移行する。
- 階層的で多次元の報酬システムを提案し、事実的な根拠付け、回答品質、形式遵守をノイズの多い検索への頑健性やユーザー整合性といった振る舞い目標から分離し、解釈可能なスコアベクトルを生み出す。
- ゲーティッド集約戦略を提示し、Group Relative Policy Optimization (GRPO) を用いて SearchLLM の最適化のための訓練報酬を導出する。
- RedNote の AI 検索エントリへのデプロイは、オフライン評価とオンライン A/B テストでユーザーエンゲージメントの改善を示し、有効消費率を 1.03%、再検索率を 2.81%低下させつつ、厳格な安全基準を維持した。
本文: arXiv:2603.10473v1 公表タイプ: new
Abstract: アイテム中心のランキングから回答中心の合成へのパラダイムシフトは、検索エンジンの役割を再定義している。最近の産業界の進歩は、eコマースのクローズドセットアイテムランキングに生成技術を適用している一方で、大規模コンテンツプラットフォーム上のオープンエンドな生成検索の研究と導入は限定的なままである。この設定には、ノイズの多い検索結果への頑健性、譲れない安全保証、そして多様なユーザーのニーズへの整合性といった課題が含まれる。本研究では、オープンエンドな生成検索のための最初の大規模言語モデル(LLM)である SearchLLM を導入する。階層的で多次元の報酬システムを設計し、事実的な根拠付け、基本的な回答品質と形式遵守といったボトムラインの制約を、ノイズの多い検索結果への頑健性とユーザーのニーズへの整合性を促進する振る舞い最適化の目的から分離する。具体的には、報酬モデルはユーザーのクエリ、セッション履歴、取得された証拠セットを条件として回答を評価し、規則ベースの検査と人間が較正した LLM 審判を組み合わせて、これらの次元に対する解釈可能なスコアベクトルを生成する。 SearchLLM を GRPO(Group Relative Policy Optimization)の下で最適化する訓練報酬を導くためのゲーティッド集約戦略を導入する。 RedNote の AI 検索エントリに SearchLLM を導入する。 オフライン評価とオンライン A/B テストは、生成品質とユーザーエンゲージメントの改善を示し、Valid Consumption Rate を 1.03%、Re-search Rate を 2.81%低下させつつ、厳格な安全性と信頼性基準を維持した。
関連記事
次世代LLM推論技術: Flash-MoE から Gemini Flash-Lite、そしてローカルGPU活用へ
Dev.to
オープンソースAIの波とセキュリティへの投資: Qwen、Microsoft、Google の動向
Dev.to

AIモデルがクリエイティブな文章を書けないのは初期モデルに見られた創造性や独創性を抑制してビジネス用途に特化させたせいだという指摘
GIGAZINE
RLax、JAX、Haiku、Optax を用いてスクラッチから Deep Q-Learning(DQN)を実装し、カートポール環境の強化学習エージェントを訓練する
MarkTechPost
[D]SQLのみで分類器を訓練する(反復的最適化なし)
Reddit r/MachineLearning