火车头采集器教程(火车头采集器教程图解)

更新时间:2023-02-28 20:30:52 阅读: 评论:0

火车头采集器怎么用?

软件程序的获取:

大家可以从百度中搜索“火车头采集器”,并进入对应官方来获取程序的最新版本下载地址。当然也可以从小编所提供的网盘地址中获取最新版本程序:

请点击输入图片描述

请点击输入图片描述

2

安装并运行“火车头采集器”程序,在弹出的登陆界面中直接点击“登陆”按钮就可以以免费版身份登陆。

请点击输入图片描述

3

在程序主界面中,点击“新建”下拉箭头,从中选择“任务”项。

请点击输入图片描述

4

在弹出的窗口中,输入“任务名”,同时点击“起始网址”栏目右侧的“添加”按钮。

请点击输入图片描述

5

接下来就极为重要的一步,就是对要进行采集的网站进行分板,对所采取的网站中各片文章的URL进行综合分析并找出规律,最后按如图进行填写。

请点击输入图片描述

6

然后切换至“第二步:采集内容规则”选项卡中,我们需要对网页内容进行分板。在此以“搜狗浏览器”为例,右击要进行分析的网页,从弹出的菜单中选择“审查元素”项。

请点击输入图片描述

7

在“开发式模式”界面中,点击“选择页面中的一个元素去透视”按钮,接着点击“标题”内容,此时就可以在“开发者”窗口中显示标题所对应的标签,此例为“h2"。

请点击输入图片描述

8

接下来在”采集内容规则“界面中,点击“添加”按钮来添加“标题”项,或者直接双击“标题”项进行修改。在弹出的界面中,勾选”前后截取“,将设置前后辍分别为"<h2>“、”</h2>".

请点击输入图片描述

9

利用同样的方法添加其它采集内容的规则。

切换至“第三步:发布内容设置”选项卡,勾选“启用 方式二”,并进行如图设置。

请点击输入图片描述

10

最后从任务列表中,勾选要采集的内容,点击“开始”按钮就可以按规则采集网站中的网页内容啦。

请点击输入图片描述




如果还有啥问题,请留言或者私信,如果回答的还算可以,请列为最佳答案


火车头采集器使用方法

设置好规则就可以采集了,不过火车头的采集规则相当复杂,可以说很难,不专门研究好几天还真不会用,采集的东西不是有源码,就是没有采集下来,要不然就是发布不上去,反正就是用起来挺费劲的,前几天有人介绍七星采集软件,功能挺全的,规则设置也很简单,你不妨试试他的。
http://hi.baidu.com/qixingcaiji

火车头采集器怎么用

作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己琢磨技术的互联网运营喵。。。我来谈谈心得感想。
八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统。能直接导出excel文件和导出到数据库中。降低采集成本,云采集提供10个节点,也能省事不少。
不好的地方就是,即使看似很简单了,而且还有更傻瓜化的smart模式,但是里面的坑只有用的多的人才清楚。关于这个我在我的博客里简单写了写,不过说实话心得太多,还没仔细整理。
首先里面的循环都是xpath元素定位,如果用单纯的傻瓜化点击定位的话,很死板,大批量采集页面的时候很容易出错。另外用这个工具的,因为方便,小白太多,成天有人问普通问题,他们都不会看页面结构,也不懂xpath,很容易出现采集不全,无限翻页等问题。
但是八爪鱼采集器的ajax加载,模拟手机页面,过滤广告,滚动至页面底端等功能堪称神器,一个勾选就能搞定。写代码很麻烦的,实现这些功能费劲。
八爪鱼毕竟只是工具,自由度肯定完败编程。胜在方便,快速,低成本。
八爪鱼判断语录较弱,无法进行复杂判断,也无法执行复杂逻辑。还有就是八爪鱼只有企业版才能解决验证码问题,一般版本无法接入打码平台。
还有一点就是没有ocr功能,58同城和赶集网采集的电话号码都是图片格式,python可以用开源图像识别库解决,对接进去识别便可。
除非对技术有很高要求,否则我觉得八爪鱼采集器很好用,比火车采集器好用,虽然效率没那么高,但是比起费劲学习和研究数据包,还是用这个省事。我没事也会在八爪鱼群里解答一些规则编制的问题。
作者:极客兔子
来源:知乎

求火车头采集器实用教程,有视频的最好,问题也喜欢,谢谢

2020最新淘客教程百度网盘免费资源在线学习

链接: https://pan.baidu.com/s/1XDr-OeL8l3S4hotwwSEhFQ

提取码: i2pk

2020最新淘客教程 淘客社交电商玩法 淘宝客实战分享会5.16 客户VX变现教程全套课程自动发货

2019年最新【短视频电商】入门指南

2019年8月4日更新 网络营销(教程)

2019年8月3日更新 网络营销(教程)

2019年6月29日更新 闲鱼项目玩法实战班

2019年6月27日更新 闲鱼项目玩法实战班 闲鱼市场分析及选品细节(第一节).ppt

闲鱼市场分析及选品细节(第一节).mp4

闲鱼如何选品及多种变现玩法(第二节).ppt

闲鱼如何选品及多种变现玩法(第二节).mp4

实操:闲鱼排名优化玩法及常见问题解答(第三节下).mp4

实操:闲鱼排名优化玩法及常见问题解答(第三节上).mp4


飞飞火车头采集器怎么写发布规则

1
首先讲一讲网站结构,通常网站结构为树形结构,一个网站主要包以下几种页面:首页、栏目页、文章页,其结构如下图。
其次讲一讲火车头采集原理,火车头的运行需要一套规则来指定该如何采集所需数据,即需要编写火车头采集规则,编写采集规则也是新手最头痛的问题。
火车头采集器通常通过网址抓取网站返回的源代码,然后在源代码中提取需要的信息。因此,采集数据需要先采集网址,然后再采集数据。
2
下面开始编写采集规则:
运行LocoyPlatform.exe
3
在左侧“任务列表树”选择一个分组点击右键,选择“新建任务”弹出新建任务对话框。填写任务名,网站编码一般选择自动即可。
添加起始网址
填写“第一步:采集网址规则”这里需要按照网站的树形结构逐级获取下一级结构的网址,直至获取到内容页的网址。先填写起始网址,通常为目标站首页地址。点击“添加”,在单条网址处填上火车头博客的首页地址,然后依次点击“添加” ->“完成”。
编写“多级网址获取”规则
这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域,先查看起始页地址的源码,找到如图所示代码区域:
点击右侧“添加”按钮打开“添加多级网址采集规则”,选择“从页面自动分析得到地址链接”单选按钮,在下面“从该选定区域中提取网址”,“从”(左侧)文本框填上栏目地址代码区域开始之前的标志性代码(要保证其在该页的唯一性),“到”右侧文本框填上栏目地址代码区域结束之后的标志性代码,在“结果网址过滤”的“必须包含”和“不得包含”文本框填上相应代码,如果该区域没有多余的链接不需要过滤,可以不填,这里的栏目页网址必须包含“category-”。然后点击“保存”返回。
现在需要获取内容页的地址。先打开栏目页查看源码,查找内容页地址存在的区域及地址规律。按照上一步的方法先填写内容页所在区域的起始和结束标志性代码,然后分析这个区域中包含的链接与我们说需要的内容页地址链接规律,添加过滤代码。这里起始代码为“<!--显示-->”,结束代码为“<div class="page" style="float:right">”过滤代码为必须包含“read-”不得包含“#”。如图:
需要注意的是这里文章比较多会有很多分页,所以需要填写“列表分页获取”规则。通常只需要指定分页代码的区域,如有必要可以填写“组合生成列表页分页”规则。这里的列表分页规则其实代码为“<li class="pageNumber">”,结束代码为“title="下一页">”。如果勾选“自动识别分页”的话,会自动提取a标签的href属性,如果不勾选自动识别的话,需要填写组合生成列表页分页”规则。
然后保存返回,可以通过“测试网址采集”来测试规则是否正确,不正确可以返回修改规则,正确的话可以开始编写“第二步采集内容规则”。
编写“第二步采集内容规则”
先打开内容页以及内容页的源码,找到需要提取的信息的前后代码特征。以提取标题和内容为例。首先复制文章标题,然后在源码中查看该标题出现的几处地方,找一处前后代码在每一篇文章都一样的地方,该例共出现了3处,第二处的代码没有其他干扰代码。点击“添加”,标签名填“标题”,提取数据方式选择前后截取,前后代码分别为“<h1 class="ContentTitle"><strong>”和“</strong></h1>”。如果采集的内容需要作进一步处理(如替换删除编码转换过滤html等),在下方“数据处理”点击添加填写相应规则。
再添加一个标签,标签名为“内容”,按照上述方法填写内容的前后代码片段,需要注意的是,前后代码片段最好不要出现不完整的标签(如:“<div class="Content-body"” 应该写作“<div class="Content-body">”,一个完整的标签应该是以“<”开始,以“>”结束,如果<>之间的内容在各个内容页有一部分不一样,将不一样的部分用(*)代替即可),否则提取的内容会包含部分不完整的标签。通常正文包含的HTML会比较多,可以添加HTML过滤功能,建议仅保留段落(p)、图片(img)、换行(br)等标签。
测试内容采集规则
保存规则后返回采集内容规则页面,在右侧“规则测试”的典型页面文本框填上一个内容页的地址,然后点击测试,如果下面显示到的内容符合预期说明可以了,如果未获取到内容或者获取到内容不正确,返回检查并修改规则。
开始采集
选择要采集的任务规则,勾选“采网址”和“采内容”复选框,点击工具栏“开始”按钮。
后续工作
采集到的数据保存在数据库,可以通过在任务名上点右键,选择“打开DATA下任务文件夹”打开数据库所在位置,该数据库可以通过ACCESS打开和编辑。如果想要重新采集,需要通过右键选择“清空该任务网址库”和“清空任务所有采集数据”。

本文发布于:2023-02-28 18:52:00,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/zhishi/a/167758745246190.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:火车头采集器教程(火车头采集器教程图解).doc

本文 PDF 下载地址:火车头采集器教程(火车头采集器教程图解).pdf

标签:采集器   教程
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 实用文体写作网旗下知识大全大全栏目是一个全百科类宝库! 优秀范文|法律文书|专利查询|