基于商品品质特征的推荐算法
摘要:个性化推荐算法中应用最广泛的是基于内容的算法和协同过滤算法及它们的组合推荐算法。协同过滤算法面临稀疏性、新项目问题,基于内容的算法不考虑其它用户的评分。本文提出了特征向量,每个特征带有一个权值,用户和商品都有特征向量文件。利用用户的评分记录构建用户的特征向量文件并同时作用于商品的特征向量文件。利于用户和商品的特征向量文件进行推荐。实验结果表明本文提出的算法在推荐准确度和计算效率方面要优于经典的算法。
高一下学期关键字:推荐系统 特征向量 组合推荐
金丝楠木种植1. 引言
随着Internet上信息的爆炸式增长,用户面临着严峻的信息过载问题[1][2][3]。用户为了找到想要的信息,需要花很多时间和精力去搜索和选择。在这种背景下,个性化推荐系统应运而生,它可以帮助用户从信息的海洋中获取有用的信息和知识。
主流的推荐方法基本包括以下几种:基于内容推荐,协同过滤推荐,基于知识推荐和组合推荐。基于内容的推荐源于一般的信息检索方法,对象使用通过特征提取方法得到的对象内容特征来表示,系统基于用户所评价对象的特征,学习用户的兴趣,从而考察用户资料与待预测项目相匹配的程度。协同过滤的基本思想是找到与当前用户相似的其他用户来计算对象对该用户的效用值,利用效用值对所有对象进行排序或加权操作,从而找到最合适的对象。基于知识的推荐利用针对特定领域制定规则来进行基于规则和实例的推理。组合推荐则是通过组合几种不同的推荐方法,用以避免或弥补各自推荐技术的弱点。
在已有研究的基础上,本文提出了一种新的基于内容的推荐算法,该算法在考虑商品特征的基础上对用户评分进行统计分析,使推荐的商品更加真实的反映用户的兴趣和商品的品质。实验结果表明,该算法能有效提高推荐质量,具备较好的实时性,产生较好的推荐效果。
2. 改进的基于内容的推荐算法
基于内容的过滤(content-bad filtering)是基于内容抽取项目特征属性的推荐技术,项目或对象通过相关特征的属性来定义,系统通过学习用户已评价过的商品的特征来获得对用户
兴趣的描述。像新闻组过滤系统NewsWeeder这样的文本推荐系统用它们的文本词汇作为特征。
传统的商品特征从商品中的描述中提取出商品的特征,一旦提取完成,便不再改变。通过这种方法提取出来的商品特征无法反映出该商品在同类商品中的品质和口碑,而商品品质是用户关心的属性。消费者对商品的品质具有投票权,因此商品的品质隐藏在它所得到的评价之中。本文通过在商品配置文件中为每个特征词增加流行权值和品质权值的方式来挖掘出这些信息。
图 1 基于品质特征的内容过滤算法思路
3. 用户兴趣模型
建立用户兴趣模型是个性化推荐系统关键的部分,用户兴趣模型是否反映了用户真实的兴趣爱好在很大程度上决定了推荐系统的成功。
基于内容的推荐算法通过用户对项目的评价来学习用户的兴趣,最后依据用户兴趣与待预测项目的匹配程度进行推荐。首先对商品分析并生成一个特征集,特征集是一组特征词的集合,如{幻想,小说 ,长篇}。
问题1 商品原始特征集无法反映两个具备相同特征集的商品的品质优劣和重点特征。
商品的原始特征集反映了此商品的属性,但如问题1所示,市场上出售的同类商品很多,消费者必然倾向于购买品质更佳的商品。
3.1 相关概念和定义
定义1 用户平均评分:用户i对所有项目评分的均值称为用户i的平均评分
定义2 用户偏差评分:用户的评分值减去平均评分即为用户的偏差评分OR
定义3 用户特征评分总和:用户i对所有包含特征k的项目的偏差评分总和FR
定义4 用户特征权值:用户i对所有包含特征k的项目的评分次数作为权值FC
本文以特征向量空间来表示用户兴趣,基本思想是一个n维特征向量:(<t1,r1,c1>,<t2,w2,c2>,<t3,w3,c3>,...,<tn,wn,cn>),其每一维由特征词、评分总和和特征权值组成。
3.2 商品特征品质度量公式
用户对商品的评分表明了用户对该商品的品质的态度。同样的商品在不同爱好的人群中会
得到不同的得分。比如一部动作片在喜欢看动作片的人群中得分较高,而在喜欢看喜剧片的人群中得分可能较低。因此本文结合用户的兴趣偏好和评分矩阵来生成商品的品质特征集。
定义5 商品特征品质权值:商品m被所有包含特征k的用户的正偏差评分总和
定义 6商品特征流行权值:商品m被所有包含特征k的用户的正偏差评分总和
防微杜渐的意思是什么
通过引入商品特征品质权值可以解决问题1,即可以找出两个相同特征的商品中更优质的商品。
3.3 模型的更新
本文中对模型的更新主要来自两个方面:用户评分和遗忘处理。
用户评分分为显式评分和隐式评分,显式评分即用户主动打分,隐式评分即用户通过点击、购买等行为表示感兴趣。两种评分都可以转换为一个评分权值进行处理。本文中的模型支持增量处理。设用户i对商品m的评分权值为r,k是商品m中的特征,则有:
用户的兴趣不是一成不变的,同样的商品在不同时期也会得到不同的品质评价。根据心理学的记忆遗忘理论,可以认为用户兴趣的改变就是一种记忆遗忘现象。用户的评价对个性化推荐的参考价值随着时间的流逝而降低。设有一个理想的递增函数,则有
为了简单起见,本文引入一个遗忘因子,系统定时对用户和商品的特征集执行一次遗忘操作,使得新的增量值比过期的值更重要。对用户特征评分总和为例:
4. 推荐算法
本节探讨如何利用用户特征集和商品品质特征集来生成推荐。个性化推荐的目的是将用户感兴趣,对用户有用的商品推荐给用户。因此在推荐过程中,只考虑用户感兴趣的特征。
定义 7 用户特征和商品特征交集:商品m的特征集和用户i的特征集的交集称为特征交集。
定义 8 用户商品预测评分:通过商品m和用户i的特征交集进行评分预测
其中和分别是用户特征和商品特征在预测中所占的权值。
取预测评分最高的Top-N作为推荐结果给用户。
5. 方便面上火吗实验
实验采用MovieLens工作组提供的ml数据集,它包含由943个用户对1682个电影的100000个评价记录,评分值为1-5分。每个用户至少对20部电影做出评价。整个实验数据进一步划分为训练集和测试集,80%为训练集,20%为测试集。
实验采用统计精度度量方法中的平均绝度误差MAE(mean absolute error)来评价系统推荐准确度。平均绝对误差通过计算推荐数据与真实评价数据数值上的差别来衡量推荐结果好坏。设目标客户的预测评分集合为幼儿园安全自查报告,真实评分集合为,则绝对平均误差定义为:
N为测试集中目标客户真实评分项数。MAE越小,推荐精度越高。
为了验证本文提出的算法的有效性,实验对三种推荐算法进行了推荐准确度和推荐耗时进行对比。三种推荐算法如下:
1) UPCF——用户-项目协同过滤推荐算法,取最近邻居数50;
2) UFCF——用户-特征协同过滤推荐算法,取最近邻居数50;
3) CBF ——基于内容的推荐算法;
4) FQCF——基于品质权值的推荐算法
在算法的实现中已经对数据库索引做了充分的优化,以避免耗时上的误差。
实验效果比较:
图 2 平均绝对误差
图 3 预测2万次耗时
图 4 训练耗时奉献英语
从图1可以看出,预测效果最好的是本文提出的推荐算法,其次是用户-项目协同过滤算法。在图2中,耗时最短的是CBF,这是由于CBF只需要进行很少的计算即可得出结果,FQCF虽然耗时不是最短,但平均耗时属于可接受的范围。而在图3中,UPCF的耗时最长,
因为要对所有的项目和评分进行扫描,UFCF只对用户的特征进行扫描,因此速度较快,CBF和FQCF的训练时间几乎可以忽略不计。
6. 小结宝宝大便带血
本文所进行的工作在一定程度上提高了推荐准确度和实时性。通过构建用户和商品的特征向量,保留了用户的偏好信息和商品的质量信息。实验表明,本文的方法与UFCF和CBF相比,推荐结果具有更高的准确度。
参考文献
[1] Boucher-Ryan, P. D., & Bridge, D. (2006). Collaborative recommending using formal concept analysis. Knowledge-bad Systems, 19, 309–315.
[2] Cho, Y. H., & Kim, J. K. (2004). Application of Web usage mining and product taxonomy to collaborative recommendations in e-commerce. Expert Systems with Applications, 26, 233–246.
[3] Semeraro, G., Lops, P., & Degemmis, M. (2005). WordNet-bad ur profiles for neighborhood formation in hybrid recommender systems. In Proceedings of the 5th international conference on hybrid intelligent systems (HIS’05) (pp. 291–296). IEEE.
[4] Adomavicius, G., & Tuzhilin, A. (2005). Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions. IEEE Transaction on Knowledge and Data Engineering, 17(6), 734–749.
[5] Eirinaki, M., & Vazirgiannis, M. (2003). Web mining for web personalization. ACM Transactions on Internet Technology, 3(1), 1–27.打击乐表演
[6] Krulwich, B. (1997). Lifestyle Finder: Intelligent ur profiling using large-scale demographic data. Artificial Intelligence Magazine, 18(2), 37–45.
[7] Lang, K. (1995). NewsWeeder: Learning to filter netnews. In Proceedings of the 12th international conference on machine learning, Tahoe City, CA.