「快手OneSearch-V2全量上线，生成式搜索进入「懂你」时代」

选型指南发表于 2026-05-22 09:56 阅读：0

OneSearch (baseline)：V1 基线模型，作为所有实验对照基准。

+ CoT tasks：SFT Stage 1 引入四项 CoT 任务后 Order HR@10 +0.48%，验证关键词级 CoT 对 query 语义歧义的有效缓解。

+ self-distill：单项最大提升（Order HR@10 +1.17%，Click HR@10 +1.67%），确认将推理能力编码进权重是主要驱动。

+ R-Drop：MRR@10 由 0.1017 升至 0.1045，预测一致性约束有效缓解信息不对称导致的输出分布波动。

+ FGM：Order HR@10 升至 0.2180，Click HR@10 升至 0.2422，输入鲁棒性进一步增强。

+ focal loss：缓解 SID 长尾类别不均衡，Order HR@10 达 0.2214，Click HR@10 达 0.2471，三种正则化组合效果超过各自贡献之和，SFT 阶段收尾。

+ PARS：V1 原有自适应奖励系统作 RL 基线，Click HR@10 0.2538，但 Order MRR@10 相对偏低。

+ GRPO：替换 PARS 后 Order HR@10 0.2248、MRR@10 0.1106，验证复合奖励与组相对优化。

+ TPMA：Order MRR@10 进一步升至 0.1136，体现层次化信用分配对细粒度 token 生成的增益。

OneSearch-V2：Listwise DPO + TPMA-GRPO 联合优化，达全指标最优（Order HR@10 0.2314，Click HR@10 0.2568），相比 baseline 平均 HR@10 +2.68%、MRR@10 +1.66%。DPO 学基础偏好拟合、TPMA 平衡多维奖励与泛化，二者互补达到最佳效果。

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。

「快手OneSearch-V2全量上线，生成式搜索进入「懂你」时代」

相关推荐

机电出口增长17.6%，“新三样”能否维持高增速？

法式复古实木床深度问答：材质工艺与场景适配全解析

浸塑哪家强？博创五金优势全揭晓

我，52岁北京五金商：17年136万守中国银行，320万熬出稳稳的幸福

柜子是怎么算平方的？3种主流算法+避坑攻略，不花冤枉钱

五金产品如何办理CE认证

评论区

全部评论

发表评论

「快手OneSearch-V2全量上线，生成式搜索进入「懂你」时代」

🔗相关推荐

机电出口增长17.6%，“新三样”能否维持高增速？

法式复古实木床深度问答：材质工艺与场景适配全解析

浸塑哪家强？博创五金优势全揭晓

我，52岁北京五金商：17年136万守中国银行，320万熬出稳稳的幸福

柜子是怎么算平方的？3种主流算法+避坑攻略，不花冤枉钱

五金产品如何办理CE认证

💬评论区

全部评论

发表评论

相关推荐

评论区