基于SENET-DEEP的CTR预测方法

更新时间:2023-06-06 04:09:26 阅读: 评论:0

隹Isl^iSls V12021年第03期(总第219期)
基于SENET-DEEP的CTR预测方法
严武尉,马宁,付伟
(哈尔滨师范大学计算机科学与信息工程学院,黑龙江哈尔滨150500)
摘要:深度神经网络(Deep Neural Networks,DNN)在点击率预测(CTR)领域应用广泛。这些模型通对特征之间的交互和改变深度网络结构来优化CTR预测模型。然而现有的方法忽略了特征本身的重要性的对深度网络的影响,限制了模型的学习能力。为了更好地预测用户可能点击的对象,文章提出了基于SENET机深度网络(Squeeze-and-Excitation Deep Network,SENET-Deep)模型。该模型利用Squeeze-and-Excitation Networks(SENET)动态学习特征,同时引入深度神经网络提高了模型学习隐式交互的能力,既注重了在浅层网络中学习特征重要性的能力,也引入深层网络提高了模型的泛化能力。两个真实数据集的实验表明,文中提出的模型在点击率预测性能上有着明显的提升。
关键词:点击率预测(CTR);深度学习;动态权重;神经网络
中图分类号:TP18文献标识码:A文章编号:2096-9759(2021)03-0055-04
CTR Prediction Method Bad on SENET-DEEP
Yan Wuwei,Ma Ning,Fu Wei
(College of Computer Science and Information Engineering,Harbin Normal University,Harbin150500,China) Abstract:Deep Neural Networks(DNN)are widely ud in click-through rate prediction(CTR).The models optimize the CTR prediction model by interacting with features and changing the deep network structure.However,the existing me­thods ignore the importance of features on the deep network,which limits the learning ability of the model.In order to diet which objects the ur may click on better,we prent a Squeeze-and-Deep Network(SENET)-bad model.The mod­el is the model for learning feature importance dynamically using Squize-and-Director-Networks(SENET).The ability to learn the implicit interaction is improved by introducing deep neural network.The ability to learn feature importance in the shallow network is emphasized and the generalization ability is improved by introducing deep network.Experiments on two real data ts show that the model propod in this paper has a significant improvement in the performance of click-through rate prediction.
Key words:Click-through rate prediction(CTR);Deep leaming;Dynamic weight;The neural network
0引言
近些年来,随着大数据时代的发展,广告点击率对互联网公司愈发重要,比如电商系统、电影豆瓣电影,内容的精准投放会给公司或者个人带来可观的收益,这些商品推荐任务的背后的技术就是是点击率预测。
点击率预测的任务是预测用户点击推荐项目的概率。在众多推荐系统中,目标是最大化点击次数,因此返回给用户的项目可以通过估计的点击率来排名;而在其他应用场景中,如在线广告,提高收入也很重要,因此排名策略可以调整为CTRx所有候选人的出价,其中“出价”是系统在用户点击该项目时获得的好处。无论是哪种情况,很明显关键在于正确估计点击的概率。了解用户点击行为背后隐含的特征交互对点击率预测非常重要。通过我们在主流应用市场的研究,我们发现人们经常在吃饭的时候下载送餐应用,这表明了应用类别和时间戳之间的交互作用可用作CTR的信号。例如,男性青少年喜欢射击游戏和RPG游戏,这意味着app类别、用户性别和年龄的(order-3)交互是CTR的另一个信号。
点击率预测主要是因式分解机模型,此模型通过矩阵分解的方法来计算稀疏向量之间的特征组合问题,但是仅仅通能很好的预测点击率。近年来深度学习在计算机视觉领域取得巨大的成功,很多学者通过模型改良和迁移的方法,将计算机视觉中的模型和问题解决方法跨领域地引入至点击率预测的相关任务中。例如注意力因式分解机(AFM)3、DeepFMm, XDeepFM12等。上述模型将深度神经网络与因式分解机想结合,继承了深度神经网络的高阶非线性特性的学习能力和泛化能力,并且优化特征因子的交互方式,使数据稀疏对特征的影响程度变小从而提高了预测的准确性。尽管特征因子交互的方
式在上述研究中取得了很大的成功,但是上述研究仅仅是在特征因子和特征因子直接进行研究,却没有关注特征因子本身特征权重带来的本质性影响。
受计算机视觉Squeeze-and-Excitation Network神经网络
收稿日期:2021-01-25
基金项目:省重点项目:基于深度学习的影视大数据推荐系统(202010231073)资助;项目编号:JKYKYY202102;
项目名称:基于精英反向和带有反馈机制的鲸鱼优化算法研究;项目支持单位:哈尔滨师范大学计算机科学与信息工程学院自然科学基金项目。
作者简介:严武尉(1996-),男,硕士。主要研究方向:大数据,推荐系统;马宁(1988-),男,博士,副教授,硕士生导师,主要研究方向:人工智能;付伟(1979-),男,硕士研究生,副教授,硕士生导师,主要研究方向:人工智能。
55
启发,本文提出基于Squeeze-and-Excitation Network的深度CTR预测方法模型,模型考虑到特征本
七月英文缩写权重身对整体的影响,将原始的嵌入向量通过SENET网络权重重定向为二阶特这,然后将二阶组特征融入到深度神经网络中。SENET-DEEP模型不仅可以学习到特征因子占特征的权重,并且通过Hamada 乘积交互学习特征因子之间的交互特征。本文的主要贡献有以下几点:
(1)提出了基于分解机的深度网络结构,在深度神经网络的嵌入层中增加了因式分解机向量。嵌入向量通过分解机操作,学习到不同特征组合的向量。此模型可以把特征之间的二阶组合输入到深度网络中,充分挖掘数据的隐藏信息。
(2)将因式分解机的思想融入到深度网络中,相比传统的因式分解机,分解机向量通过深度网络可以学习到高阶的非线性特征。
(3)将嵌入向量与分解机向量连接组成新的向量,解决了传统嵌入向量没有考虑特征之间交互的问题,增加了模型的可表示性。
本文的其余部分组织如下:在第2节中回顾提出与模型相关的相关工作,然后在第3节中介绍了我们所提出的模型。第4节展示数据集的实验探索。最后,第5节总结实验结果。
1相关工作
如今越来越多的学者关注CTR的研究,ChapeUe等人皿提出了基于逻辑回归的机器学习框架,将模型
物品信息、用户信息作为模型的输入预测雅虎网站的广告点击率。逻辑回归模型虽然算法简单并且易于调参,但是忽略了特征之间的重要性,特征之间的复杂关系并非线性关系可以解决,所以很多学者试图运用非线性模型来解决此类问题。
因子分解机(FM)®的出现,解决了手工组合特征的问题,它将每一个特征向量看做对特征的一种嵌入,这个模型在数据稀疏的情况下取得了很好的实验效果。Juan等人“在因式分解机模型的启发,在挖掘不同特征域上的信息基础上,引入了特征域信息,从而提出了领域感知分解机(FFMs),将性质不同的特征划分为不同域,通过分领域预测指标,取得了较好的预测效果。
此后,深度学习在机器学习的分支上取得了众多科研成果,学者们将多层感知机和因子分分解机模型并构,对嵌入向量进行两种不同的学习,最后通过输出层将两者融合,这种方法虽然取得了一定的成果,但是没有考虑到特征因子之间的交互关系。
随着神经网络在计算机视觉和自然语言处理等许多研究领域的快速发展,近年来提出基于神经网络挖掘数据特征的CTR模型通过神经网络来学习原始数据中特征之间复杂的关系,在点击率预测系统中取得了重大突破。JunXiao受到神经网络的启发,在FM的基础上,将神经网络的注意力机制和因式分解机相结合,进而从数据特征中学习每个交互特征的重要性,尽管取得的了较好实验结果,但是没有深度挖掘高阶特征之间的关系血。Wide&Deep模型(WDL)[I1最初是为了在谷歌play中进行应用推荐而引
入的。WDL联合训练宽线性模型和深度神经网络,以结合推荐系统的记忆和泛化的有点。然而,在WDL大部分地区的输入上仍然需要专业技术特征工程,这意味着交叉产品转换也需要手工设计。Deep&Cross Network(DCN)1211以明确的方式有效地捕捉有限程度的特征交互。同样>extreme Deep因式分解机(xDeepFM)121也通过提出一种新的压缩交互网络(CIN)部分,以显式方式对低阶和高阶特征交互进行建模。DeepFMua模型引入浅层网络和深层网络,通过网络的混合架构共同学习低阶和高阶特征交互,将低阶特征和高阶特征在输出层进行融合,最后得到预测结果。如m所述,调频可能会受到所有特征交互建模的阻碍,因为并非所有特征交互都同样有用和具有预测性。他们提出了注意因子分解机器(AFM)a模型,该模型使用注意网络来学习特征交互的权重。深度兴趣网络(DIN)閻通过兴趣分布来代表用户的不同兴趣,并设计出一种类似于注意力的网络结构,以根据候选广告在本地激活相关兴趣Jianxun Lian基于以上模型深入探索,循宽深度模型和深FM模型的精神,将显式高阶交互模块、隐式交互模块和传统FM模块相结合,提出了极端深度因子分解机回,通过向量级的特征交互进行预测,虽然得到了很好的效果,但是过度依赖于特征交互的数据学习,并没有考虑到单个特征在全部特征中的影响力。考虑到这一点,我们我们引入了一个压缩激励网络(SENET)1181将嵌入向量进行压缩,然后通过激励神经网络重置原始嵌入向量特征因子本身的权重,最后通过融合神经网络将原始向量和激励后的重置向量动态融合,从而动态地学习特征个体的权重,同时引入深度神经网络将向量在深度网络中学习,从而提高模型的泛化能力。
2模型
Hu1191提出K Squeeze-and-Excitation Network"(SE­NET),基于卷积神经网络显示地建模学习特征通道之间的依赖关系,来提高网络的表示能力。本文提出的模型旨在学习特征个体的重要性、模型由以下部分组成:稀疏输入层、嵌入层、SENET层、组合层、隐藏层和输出层。对于输入特征釆用稀疏向量表示,将稀疏向量嵌入到一个稠密向量中,SE-NET层可以将嵌入层转换为类似SENET的嵌入特征,有助于提高特征的可识别性,随后,这些交叉特征被组合层连接起来。最后将交叉特征输入深度神经网络,由神经网络输出预测分数。
型结构正如下面图1所示:
图1模型基本结构图
2.1稀疏输入层和嵌入层
稀疏输入层将原始输入数据稀疏化表示,嵌入层将稀疏特征嵌入至低维、稠密的实向量中。嵌入层的输出是一个宽级联场嵌入向量:E%捡,L,a
托福 报名*],其中f表示向量的维度,0,0疋
56
carbonblack表示第i个维度的嵌入,k是嵌入层的维度。
2.2SENET层
不同特征对于目标任务有着不同的重要性,比如我们预测一个人的健康情况时,年龄特征比性别特征更重要。对于特定的CTR预测任务,可以通过SENET机制动态增加重要特征的权重,降低非重要特征的权重。
如图1所示,SENET分为:挤压、激励和重置权重三个步骤。SENET将特征嵌入向量MF1”叫L,m"作为输入,用平均池化的方法将原始向量转化为激励向量N=[n”n”L,n几其中muR表示嵌入向量皿权重的标量,n,e卅表示第i个的SENET-Like嵌入向量。计算公式如下:
z,=耳何丿=£&
*(1)
*t-1
激励步骤可用于压缩向量n学习每个维度的嵌入权重。在该步骤下我们使用全连接层来进行权重学习,使用0作为非线性的激活函数,向量激励的计算公式如下:
N=F,(Z)=0(WZ)(2)其中Me W是一组向量,&为激活函数,W为学习参数。
SENET的最后一个步骤为重置权重。它在原始输入向量N和激励向量M直接进行向量乘法,并输出新的嵌入向量(SE-NET-Like嵌入向量)?=[”,L,v7],计算公式如下:
卩=[»|•码,厶”/"/】(3)其中",叫&",M e R\简而言之,SENET使用全连接层来动态学习特性的重要性。对于特定的任务,它增加了重要特征的权重,降低了非信息特征的权重。cdns
2.3深度网络层
深度网络层由三个全连接层组成,可以隐身地捕捉高阶特征直接的交互,并且提高模型的泛化能力,公式如下:
=“国於+&(°)(4)其中Z是深度,b是激活函数。是第Z层的模型权重、偏差和输出。之后,生成一个稠密的实值特征向量,最终输入到sigmoid函数中进行CTR预测y=+H),其中Z是DNN的深度。
2.4损失函数
考虑到CTR点击率预测模型具有隐性反馈的二分类的特性,SENET-DEEP可以把y的值作为标志,1表示点击,0表示不点击。预测值夕表示用户对项目可能交互的概率大小,范围为[0,1]。使用交叉爛损失函数作为模型的损失函数,也叫做二元交叉爛损失:
L=-工[ylogj>+(l-j>)log(l-^)](5)其中『表示正例的集合,卩一表示负例的集合,Fo厂为整个集合。Adam是一种计算高效,适用于大规模的数据及参数场景的优化算法,SENET-DEEP使用Adam优化算法计算公式的最小值。
3实验
3.1数据集
Criteo数据集在CTR模型评估中广泛使用,由4500万个数据实例的点击日志组成,其中包含26个匿名分类字段和13个连续特征字段。数据集随机分成两个部分:85%用于训练, 15%用于测试。
Movielens-1M数据集由一百万个交互行为组成,其中有6040个用户和3883个项目。对于CTR模型,本文把用户对项目的评分大于3行为作为点击正向的标志,记为1,其余就记为0。1所示。
3.2评估指标
对于CTR点击率预测模型,我们釆用两个指标:AUC: ROC和对数损失(Log Loss)。
AUC对分类阈值和真阳率不敏感。AUC的最大值为1,预测值越接近1,表示模型评估效果越好。对数损失是二分类中广泛使用的评估指标,用于衡量两个分布之间的距离。对数损失的下限为0,表示两个分布匹配程度,值越小性能更好。
3.3参数设置
ziploc
实验环境基于pytroch深度学习框架。随机为每一个超参数进行标准化分布的赋值,以保证赋值不会对结果有影响。使用Adam优化算法。设置批次大小为256。
对于嵌入层,Criteo数据集的嵌入层维度设置为20,Mo-vielens-lM数据集的嵌入层维度设置为10。对于优化方法,我们使用Adam InI bich-size大小为Criteo1000,Movielens-1M 数据集bich-size大小为1500,学习率设置为0.001。对于所有深度模型,层的深度设置为3,所有激活函数为RELU,每层神经元的数量对于Criteo数据集为500,对于Movielens-1M数据集为1000drop out率为0.4=对于SENET部分,两个全连接层的激活函数为RELU函数。
3.4对比方法
本文用以下的几种方法作为对比实验。
FM:合了支持向量机(SVM)和因子分解模型的优点。可以处理任何实值特征向量,使用因子化参数对变量之间的所有相互作用进行建模。即使是在稀疏性很大的问题中,可以在线性时间内计算。
AFM:在因式分解机的基础上,通过注意力神经网络从数据中学习每个交互特征的重要性。
DeepFM:结合了用于推荐因子分解机的能力和用于特征学习能力的深度学习模型,将分解机和深度网络并行,通过分解机学习低维特征,通过深度网络学习高维特征,组合特征进行预测。
食品与健康3.5实验结果及分析
Criteo和Movielens-1M数据集的点击率预测结果如表1所示。
表1Criteo和Movielens-1M数据集上的整体性能
模型
Criteo Movielens
AUC Logloss AUC Logloss FM0.79230.46810.70400.5241
AFM0.79650.45410.71280.5115
DeepFM0.80070.45080.71540.5085
SENET-
DEEP
0.81460.44730.72860.4972
表1的实验结果显示SENET-DEEP在两个数据集的AUC 和Logloss指标均优于对比实验。在AUC方面,SENET-DEEP 在Criteo数据集比AFM平均提升了2.2%,比DeepFM平均
57
提升了1.7%,SENET-DEEP在Movielens数据集比AFM平均提升了3.2%,比DeepFM平均提升了2.2%。在Logloss方面,SENET-DEEP在Movielens数据集比AFM平均提升了2.7%, DeepFM平均提升了2.2%。在Criteo数据集比AFM平均提升了1.4%,DeepFM平均提升了0.7%。
4结语
本文提出了SENET-DEEP模型,其为压缩,激励神经网络与深度神经网络的缩写。特征在SENET神经网络中学习到T,使嵌入层向量通过压缩、激励,重置等步骤,从而单独特征因子的重要性,并且输出为新的向量,提高了重要特征的权重同时降低了非重要特征的权重。与此同时通过引入Hamada 乘积关注交互特征之间的影响,在关注特征向量特征的局部特征的同时兼顾了特征之间交互对预测结果的影响。最后处理后的向量作为深度神经网络的输入。深度网络可以学习到SENET网络中向量的高阶特征并且提髙模型的泛化能力。现实数据集的实验结果表明,SENET-DEEP模型可以达到更好的预测效果。
参考文献:
[1]Huifeng Guo,Ruiming Tang,Yunming Ye,Zhenguo Li,
center stage高辛烷值and Xiuqiang He.2O17.Deepfm:a factorization-machine bad neural network for ctr prediction.arXiv preprint arXiv: 1703.04247(2017).
[2]Jianxun Lian,Xiaohuan Zhou,Fuzheng Zhang,Zhongxia
Chen,Xing Xie,and Guangzhong Sun.2018.xDeepFM:C ombining Explicit and Implicit Feature Interactions for Recom­mender Systems.arXiv preprint arXiv:1803.05170(2018)3. [3]L Jun Xiao,Hao Ye,Xiangnan He,Hanwang Zhang,Fei
Wu,and Tat-Seng Chua.2017.Attentional factorization machines:Learning the weight of feature interac-tions via a ttention networks.arXiv preprint arXiv:170&04617(2017).
[4]Steffen Rendle.2010.Factorization machines.In Data Min­
ing(ICDM),2010IEEE10th International Conference on.
IEEE,995-1000.
[5]Steffen Rendle.2012.Factorization machines with libfm.
圣诞节英文歌曲ACM Transactions on Intelligent Systems and Technology (TIST)3,3(2012),57.
[6]Xinran He,Junfeng Pan,Ou Jin,Tianbing Xu,Bo Liu,Tao
少儿英语培训机构排名Xu,Yanxin Shi,Antoine Atallah,Ralf Herbrich,Stuart Bowers,et al.2014.Practical lessons from predicting clicks on ads at facebook.In Proceedings of the Eighth Interna­tional Workshop on Data Mining for Online Advertising.
ACM,1-9.
[7]Yuchin Juan,Damien Lefbrtier,and Olivier Chapelle.2017.
Field-aware factor-ization machines in a real-world online advertising system.In Proceedings of the26th International Conference on World Wide Web Companion.International World Wide Web Conferences Steering Committee,680-688.
[8]Yuchin Juan,Yong Zhuang,Wei-Sheng Chin,and Chih-Jen
Lin.2016.Field-aware factorization machines for CTR pre­diction.In Proceedings of the10th ACM Conference on Re­
commender Systems.ACM,43-50
[9]Hudec M.SURVIVAL ANALYSIS IN HETEROGEN­
EOUS POPULATIONS-STATISTICAL MODELS AND CONCEPTS[J].Stochastic Modelling of Social Process, 1984:283-333.
[10]Cheng H T,Koc L,Harmn J,et al.Wide&Deep
Learning for Recommender Systems[J].2016.
[11]Guo H,Tang R,Ye Y,et al.DeepFM:A Factorization-Ma­
chine bad Neural Network for CTR Prediction[J].2017.
[12]He X,Chua T S.Neural factorization machines for spar
predictive analytics[C]//Proceedings of the40th Interna­tional ACM SIGIR conference on Rearch an
d Develop­ment in Information Retrieval.2017:355-364.
[13]Wang R,Fu B,Fu G,et al.Deep&cross network for ad click
predictions[M]//Proceedings of the ADKDD'17.2017:1-7.
[14]Lian J,Zhou X,Zhang F,et al.xdeepfm:Combining explicit
and implicit feature interactions for recommender systems
[C]//Proceedings of the24th ACM SIGKDD International
Conference on Knowledge Discovery&Data Mining.2018: 1754-1763.
[15]Cheng H T,Koc L,Harmn J,et al.Wide&deep learning
for recommender systems[C]//Proceedings of the1st wor­kshop on deep learning for recommender systems.2016: 7-10.
[16]Guo H,Tang R,Ye Y,et al.DeepFM:a factorization-ma­
chine bad neural network for CTR prediction[J].arXiv pre­print arXiv:1703.04247,2017.
[17]Lian J,Zhou X,Zhang F,et al.xdeepfm:Combining explicit
and implicit feature interactions for recommender systems [Cl/ZE^oceedings of the24th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining.2018: 1754-1763.
[18]Senet Inc.;Patent Issued for IoT Network Controller/Server
(USPTO10,735,521).2020,:4961-.
[19]Jie Hu,Li Shen,and Gang Sun.2017.Squeeze-and excita­
tion networks.arXiv preprint arXiv:1709.015077(2017). [20]Heng-Tze Cheng,Levent Koc,Jeremiah Harmn,Tai
Shaked,Tushar Chandra,Hrishi Aradhye,Glen Anderson, Greg Corrado,Wei Chai,Mustafa Ispir,et al.2016.Wide& deep learning for recommender systems.In Proceedings of the1st Workshop on Deep Learning for Recommender Sys­tems.ACM,7-10
[21]Ruoxi Wang,Bin Fu,Gang Fu,and Mingliang Wang.2017.
Deep&cross network for ad click predictions.In Proceed­ings of the ADKDD f17.ACM,12.
[22]Guorui Zhou,Xiaoqiang Zhu,Chenru Song,Ying Fan,Han
Zhu,Xiao Ma,Yanghui Yan,Junqi Jin,Han Li,and Kun Gai.2018.Deep interest network for click-through rate pre­diction.In Proceedings of the24th ACM SIGKDD Interna­tional Conference on Knowledge Discovery&Data Mining.
ACM,1059-106&
58

本文发布于:2023-06-06 04:09:26,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/135524.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   模型   学习   深度   向量   预测
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图