网络用户浏览行为的分析

更新时间:2023-04-22 20:46:05 阅读: 评论:0


2023年4月22日发(作者:家常菜做法大全有图)

网络用户浏览行为的分析

张亮;赵娜

【摘 要】近年来, 邪恶日漫 Web 使用挖掘成为数据挖掘领域中一个新的研究热点, Web

使用挖掘是从记录了大量网络用户行为信息的 Web 日志中发现用户访问行为特征

和潜在规律。本文结合某高校主页的真实运行数据,通过 Web 使用挖掘对于网站

的运行日志文件进行全面的挖掘分析,分析用户对信息内容的兴趣度,并通过用户

对网页的访问数据推算出各个页面受众的兴趣度高低,借此改良网站的内容和布

局。%In recent years, web usage mining has become a new hotspot in the

field of data mining. From the web logs which record information of a

large number of network urs behavior, web usage mining discovers the

characteristics and potential ur access law. This paper us many real

running dates of college homepage. Aiming at running log files, we carry

out a comprehensive analysis by using the web 麻辣豆腐的做法 mining. Analyzing the

interest measure of ur to the information content. By using the ur

access to the page, the system can calculate the ur data level of interest

on each page, and thereby improving the content and layout of the site.

【期刊名称】《计算机系统应用》

【年(),期】2016(025)006

【总页数】5(P260-264)

【关键词】用户行为;数据挖掘;离线分析;在线分析;权重

【作 者】张亮;赵娜

【作者单位】中国石油大学 华东 网络及教育技术中心,青岛 266500;山东省青岛

市黄岛区建筑工程质量监督站,青岛 266500

【正文语种】

信息技术的发展, 使得互联网中积累了海量的无序的、繁杂的数据, 虽然有这些海

量的数据, 但是只有极少部分是有用的. 基于Web使用挖掘的网络用户行为分析是

指收集用户访问网站时的基本数据, 对这些用户行为数据进行统计、分析和研究,

从中发现不同用户的行为规律, 发现用户的行为模式, 了解用户的兴趣, 从而为用户

提供更有效的服务.

针对一个网站, 数据挖掘的关键步骤之一就是要采集用户兴趣的数据集. 按照服务

器记录信息的不同, 数据挖掘对象来源[1,2]于客户端数据、代理端数据、服务器端

数据三类数据. Web使用过程中, 从不同数据源收集而来的数据反映了用户行为

的不同.

(1)客户端数据

客户端数据可以比较全面和准确的收集(利用远程Agent)到用户数据. 所谓“客户

端远程Agent”就是运用Applet技术在客户端获取用户浏览行为.

(2)代理端数据

代理端可以揭示来自访问多个服务器多用户的实际http请求, 代理端的缓存可以

减低客户端访问对网络的装载时间, 降低对web服务器的访问, 减少服务器端的工

作负载.

(3)服务器端数据

服务器端的数据, 记录了网站用户的访问该站点时每个页面的请求信息. Web服务

器上存放的日志文件时采用ECLF(扩展型日志格式). 其格式如表1所示.

本文对于用户的行为进行分析研究, 仅仅需要考虑Web服务器上的日志文件(Log

file)即可. 在关系数据库中建立一个表SourceLog, 用于数据源的获取, 其存放形式

如表1所示, 表中的相应字段对应于合并后Log中的一个属性项, 并且可以对

Databa中的原始数据进行SQL操作.

不同的用户对网页的兴趣度也不同, 如何满足不同用户的各种需求是网站管理员最

挂心的事. 上面已经采集Web服务器日志, 并将其归集起来, 接着对用户行为进行

分析, 利用上面归集起来的数据. 用户行为分析[3,4]分为离线分析和在线分析两部

.

2.1 离线分析

离线分析就是对Web日志进行预处理、分析、挖掘, 为在线分析准备频繁序列模

.

2.1.1日志文件的预处理

预处理就是将采集到的用户原始的行为数据进行分析, 消除错误的、冗余的、不完

整的数据信息, 获得一组可以挖掘、适宜分析的对象. 数据预处理阶段包括以下几

个过程.

(1) 数据清洗

数据清洗是指从多个服务其中读取并合并有关日志数据, 然后删除Web日志文件

中与数据挖掘无关的数据, 这些无关的数据主要包括: 一些非HTML文件(如图片和

音频文件)、样式文件和脚本文件、用户访问失败的记录、不是GET的数据记录,

弹出式广告的记录等. 比如分析者可能只希望分析某一时间段(201551-

2015531)用户行为规律, 可以通下列语句来实现.

Select *

From SourceLog

Where time Between 01/May/2015:12:00:00 And 31/May/2015:12:00:00

代理发出的请求还大量的存在日志中, 将会不影响挖掘结果, 必须对此进行处理.

, 从日志中识别代理或网络爬虫的访问时必需的. 数据清洗的流程图如图1所示.

数据清洗的最后一步就是规范统一资源定位器地址(URL地址), 分析公共网关接

口数据(CGI数据).

(2) 用户和会话识别

用户会话[5]是一个用户一次访问一个Web网站时所浏览的所有网页的集合, 通过

连续请求的页面, 可以获得其在网站中的浏览兴趣行为和访问行为. 为了网络用户

行为进行研究分析, 必须将不同的用户区分出来, 一般将IP地址、代理类型Agent

结合起来去辨识一个用户, 辨识出用户后其访问记录就必须划分为会话. 会话识别

, 常常设置一个超时时限, 若请求的来源的网页文件超过设定的时限限制, 则认为

它来自一个新的会话. 用户识别和会话识别的流程图如图2和图3所示.

一般采用基于页面访问时间的启发式方法, 其算法如算欧美写真艺术 法1所示. 在同一用户访问

的页面序列中, 如果两个相邻页面的时间差Time(Ti+1)- Time(Ti)超过给定的时间

限值, 则认为从页面i+1开始用户的另一次会话, 一般使用30min作为缺省阀值.

另外, 为了消除偶然用户的访问出现对模式的识别, 将会话长度小于2的会话在数

据库中删除.

(3) 路径补充

由于网络机制等原因, 识别出的会话序列可能并不完善, 日志记录中可能还遗漏了

一些用户访问的过程, 所以还需要对用户会话进行路径补全. 路径补全是根据网络

的拓扑机制, 如果用户使用了代理服务器, 网页浏览跟踪便无法从客户端获取, 便需

要通过路径补全, 推断出一些缓存网页的浏览情况, 对遗漏的请求补全到会话当中.

路径补全的流程图如4所示.

UIP代表用户IP地址, UID代表用户ID, URLi代表该第i号页面,TIMi代表

i号页面访问时间, 代表第i号页面访问次数, 通过预处理的过程便可以形成一个

用户访问矢量:

给推断出的浏览网页赋予一个时间是路径补全的另一个任务.

2.1.2模式发现和分析

由于网站包含的页面数量巨大, 用户真正感兴趣的网页很难完全列举出来, 因此,

页面的访问次数和页面的平均访问时间结合起来, 来反映页面兴趣度, 即页面权重.

根据下面提供的页面权重计算公式,

其中, Wp代表页面权重, Wf代表按照访问频率计算页面权重, Wa代表按照平均访

问时间计算页面权重, (0<<1)WfWa所占比重. WfWa,

∈(0.5,1), WfWa时, ∈(0,0.5).

根据用户的访问页面顺序的组成特点, 访问序列的权重可以进行定义如下: 给定一

个用户访问序列, 其中项集I, 则该用户访问序列的权重计算公式如式2所示.

通过文献[6]-[10]我们可以知道验证一个访问序列是否是频繁的主要依据是, 当用

户访问序列S满足, 访问序列S为非频繁访问序列. 实际上, 每个Web页面都由各

自的特点, 不是完全相同的, 在计算最小支持度(), 我们应该考虑考虑页面之间的

差异. 因此下面, 我们对以上算法进行改进增加权重, 使其更加合理. 具体步骤如下

所示.

(1)扫描数据库经过数据清理的数据, 计算出普通用户访问各页面的权重Wp以及各

页面的访问序列权重W(S);

(2)普通用户访问各页面的权重Wp以及各页面的访问序列权重W(S)作为标准权重.

通过连接操作, 生成候选访问序列, 根据用具判断是否为频繁序列的条件, 若标准权

重低于所要判断的项集, 则作为频繁项集保留.

下面以某高校主页为例, 针对201551日至2015531日这段时间,

页面的访问浏览次数和平均访问时间进行有效的统计计算, 选择所计算出来的有效

权重中权重最高的15个页面作为研究对象.

由表2可以看出, 在改进网站结构时, 由于page1page2page3页面的访问

量较大, 可以将其提升到首页.

2.2 在线分析

本在线分析是为了访问者作即时推荐, 依据用户访问的页面, 推测用户即将访问的

页面, 并将其加入到推荐页面中, 供访问者选择. 主要包括以下三个步骤:

(1)明确系统参数, 确定合适的滑动窗口时一个反复调节的过程清空微博 ;

(2)利用最长匹配算法与频繁访问模式集合中的项集进行匹配, 获得访问序列中对应

的滑动窗口数据, 找到匹配序列模式;

(3)页面推荐, 如果按上一步找到匹配序列模式, 则可以加入推荐页面的集合, 如果没

有找到与当前用户匹配的序列模式, 则不加入推荐页面的集合.

在线处理模块如算法2所示

一般而言, 取一个经验值作为滑动窗口的长度w的取值. 根据研究统计分析[11]:

动窗口的宽度一般设置为34, 这是因为大部分用户在浏览网页的时候, 习惯点击

“后退”或者“前进”按钮. 通过的在线分析, 找到相应海螺的营养价值及功效 的推荐集, 以链接的形式给

出推荐集中的页面, 并显示在当前的网页中, 以起到动态提供相关链接的目的.

本文根据某高校主页的统计信息, 通过对访问数据的量化分析了解用户行为, 通过

Web使用挖掘发现网络用户对高校主页信息的兴趣度, 再依据数据分类等方式,

整基础数据优化网站布局, 从而提高高校主页的用户满意度和点击率. 下一步研究

是如何提高算法效率, 以实现根据浏览器信息个性化推荐网页.

1 杨玉梅.Web日志挖掘中的数据预处理技术研究.科技视界,2014,(12):20,24-25.

2 于升峰,蓝洁.基于用户行为挖掘和RSS技术的知识服务模式研究.情报探

,2011,(8):93-95.

3 Liu B. Web数据挖掘.北京:清华大学出版社,2013:384-422.

4 McCarty JA, Hastak M. Segmentation approaches in data-mining: A

comparision of RFM, CHAID, and logistic regression. Journal of Business

Rearch, 2006, 60(6): 656- 662.

5 于飞,丁华福,姜伦.Web日志挖掘中数据预处理技术的研究.计算机技术与发

,2010,5(20):47-50.

6 Xing DS, Shen JY. Efficient data mining for Web navigation patterns.

Information and Software Technology, 2004, (46): 55-63.

7 王小姣.聚类分析及其在Web日志挖掘中的应用研究[学位论文].济南:山东师范大

,2011:29-37.

8 唐伟,周倩.网络用户信息浏览路径挖掘研究的发展.情报理论与实

,2013,36(6):125-128.

9 刘贵平.基于浏览行为的用户价值细分研究.内蒙古大学学报(自然科学

),2014,45(6):623-627.

10 Sungjune P, et al. Sequence-bad clustering for Web usage mining:a

new experimental framework and ANN- enhanced K-means algorithm.

Data & Knowledge Engineering, 2008, 65(3): 512-543.

11 Buchner A, Mulvenna M. Discovering i炖品 nternet marking intelligence

though online analytical web usage. SIGMOD Record, 1999, 27(4): 23-38.


本文发布于:2023-04-22 20:46:05,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/509811.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图