基于RAKEL算法的商品评论多标签分类研究与实现

更新时间:2023-07-18 08:01:30 阅读: 评论:0

好养的猫文章编号:2096-1472(2019)-01-08-04
DOI:10.19644/jki.issn2096-1472.2019.01.002
软件工程    SOFTWARE ENGINEERING 第22卷第1期2019年1月意开头成语
阿倍仲麻吕V ol.22  No.1Jan.  2019
中国最好的大专基于RAKEL 算法的商品评论多标签分类研究与实现
梁睿博,王思远,李  壮,刘亚松
(东北大学计算机科学与工程学院,辽宁 沈阳 110819)
摘  要:商品通常包含多个属性维度,准确找到商品评论中涉及的属性维度是文本挖掘工作的基础。RAKEL算法是多标签分类中问题转换思路的一种实现。在以往的工作中,由于子标签集合的随机性,没有充分发现和考虑标签之间的相关性,导致分类精度不高。为此,提出了改进的FI-RAKEL算法。首先通过FP-Growth算法得到标签的频繁项集,再从频繁项集和原始标签集合中选择标签构成新的标签子集,以此充分利用标签相关性训练基分类器。实验证明,改进的FI-RAKEL算法具有更好的评论文本多标签分类性能。
关键词:多标签分类;RAKEL;频繁项集;标签相关性中图分类号:TP391    文献标识码:A
Rearch and Implementation of RAKEL Algorithm Bad Multi-Label
Classification for Online Commodity Reviews
LIANG Ruibo,WANG Siyuan,LI Zhuang,LIU Yasong
新中式吊灯(School of Computer Science and Engineering ,Northeastern University ,Shenyang 110819,China )
Abstract:Generally,there are multiple attribute-dimensions to describe a commodity.It is the foundation of text mining to accurately find the attribute-dimensions involved in commodity reviews.The Random K-Labelts (RAKEL) is an accomplishment of problem transformation in multi-label classification.However,due to the randomness of sub-labelt and the lack of investigating into the relationship among labels,the classification accuracy of RAKEL is not high.Hence,an improved RAKEL algorithm (FI-RAKEL) is propod.Firstly,the item-frequency ts of labels are obtained through the FP-Growth algorithm.Then,labels are lected from the item-frequency ts and the original label t respectively to generate a new k-labelt and it is ud to train the corresponding classifier bad on correlation among labels.The experiment result shows th
at the propod FI-RAKEL algorithm brings higher classification accuracy for multiple-labeled reviews.
辛勤付出
无条Keywords:multi-label classification;RAKEL;item-frequency t;label correlation
1  引言(Introduction)
近些年,网购成为了人们日常消费的主要方式。由此,各大电商平台上积累了海量的用户购物评论数据,其中蕴藏着巨大的商业价值。一方面,用户评论是企业和商家了解市场反馈的重要渠道;同时,对于消费者而言,参考其他人发表的评论也有助于快速地选择理想的商品。通常,一种商品会包含多个属性维度,用户针对某个商品发表的评论也会涉及商品的多个方面。因此,对商品评论进行文本挖掘时,准确找到评论中涉及的属性维度是整个文本挖掘工作的基础。针对商品评论数据集,多标签分类算法是首要考虑的问题。
多标签分类算法主要研究当样本同时具有多个类别标记时,如何构建分类器,准确预测未知样本的标签集合[1]。本文首先从京东商城等电商平台按品类获取了商品评论,并对
移移看这些评论进行人工标注。按照标签对商品评论文本进行统计后发现,一些标签之间具有较高的相关性,例如,表1列举的洗发水商品的评论R1-R6。从表1中可以看出,“快递”和“购物渠道”这两个标签在
同一条用户发表的评论文本中共现(被同时提及)的比例较高,我们可以认为这两个标签具有一定的相关性。导致这一现象的原因是,当“购物渠道”为电商平台时,用户必然会接受快递服务,因此两者的共现概率较高。而在实际应用中,标签之间是存在一定联系的。本文以标签相关性为基础,参考近年来基于标签相关性的多标签分类算法,提出了基于频繁项集的改进RAKEL算法FI-RAKEL。首先,通过频繁项集挖掘标签之间的关联关系,选取频繁项集的元素作为RAKEL算法的标签子集,从而利用标签间的相关性提高预测分类的精确度和整体性能。
基金项目:本文受the National Key R&D Program of China under grant(2018YFB1004700)资助.

本文发布于:2023-07-18 08:01:30,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1086091.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:标签   评论   商品   分类
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图