【KDD2022】AutoFAS: 粗排场景自动特征与结构选择算法
发布网友
发布时间:2024-09-29 03:27
我来回答
共1个回答
热心网友
时间:2024-09-29 12:41
论文链接:
工业级别的搜索推荐系统主要由召回、粗排、精排与重排等算法组成。双塔模型在粗排阶段仍被广泛使用。研究中提出,通过额外使用精排的打分知识进行蒸馏,以提高模型效果。然而,解决两大挑战——即在给定时延限制和精排打分知识指导下,选出最优的粗排特征与结构组合方案,仍是关键问题。AutoFAS(Automatic Feature and Architecture Selection for Pre-Ranking System)算法框架的提出,旨在统一解决上述问题。
AutoFAS是首个在搜索、推荐与在线广告系统中同时学习特征与结构的算法。它在预排名阶段实现有效性和效率之间的平衡,通过神经结构搜索(NAS)的方法,结合美团的排名模型引导奖励,搜索与后续排名teacher最一致的pre-ranking students。
当前推荐系统链路与ranking model发展进程中,经典链路包括匹配、预排名、排名与再排名四个部分。匹配阶段筛选出与用户相关性较高的候选项目集合,预排名阶段进一步个性化过滤出高精度与召回率的候选项目。排名阶段根据丰富特征集为项目分配分数。预排名与排名在问题规模上有显著差异,预排名系统面临计算能力成本挑战。
在计算限制下,以深度学习为代表的以表征为重点的方法在预排位系统中成为主流。然而,这些方法未能充分利用交互式特征,导致计算效率较低。近期研究如COLD引入交互式特征,但计算成本未能与模型性能共同优化。PFD从不同角度探索问题,但未考虑计算成本。FSCD提出了一种基于特征复杂性和变异性放弃的可学习特征选择方法。AutoFAS受到NAS启发,旨在实现预排位模型与后续排名模型之间的更好权衡。
NAS技术自动设计高性能神经网络结构,可与人类专家设计相媲美。搜索和推荐系统中的NAS是活跃研究领域,包括AutoFIS、AutoCTR、AMEIR、AutoIAS等。
在特征和架构选择上,AutoFAS采用NAS中的可微分方法。Motivation在于利用排名模型知识自动指导预排位模型特征与架构选择,避免单独训练预排位模型。搜索空间包含包含所有候选pre-ranking模型的over-parameters网络与排名模型网络,共享相同输入特征。
选择特征的同时,寻找最佳架构。候选操作包括“零算子”与多层感知器(MLP)。特征参数通过二值化实现,架构参数通过引入实值参数实现。延迟目标被建模为神经网络架构连续函数,确保计算效率。知识提炼过程通过排名模型软目标作为监督信号,指导Mixop中的选择。
实验数据集来自美团工业数据集,包含2000万用户、100多亿条展示/点击记录。通过添加非显示样本缓解预排位中的样本偏差。实验设置包括特征集大小、架构空间参数、优化器与学习率等。AutoFAS与基线模型(VPDM、COLD、FSCD)进行对比,验证其有效性。
最终,AutoFAS算法框架成功实现了预排位与排名模型之间的有效平衡,显著提升系统性能,已在美团主搜场景下全量使用并取得显著线上提升。