R语⾔中rvest包爬⾍代码+⽰例讲解(爬取当当⽹)
R语⾔中rvest包爬⾍代码+讲解
rvest包
保定南湖R语⾔中有许多⽤于爬取数据的包,本篇⽂章主要讲解rvest包的使⽤。⾸先讲解rvest包中的主要函数。
2.html_nodes():⽤于选取⽂档中指定的元素、节点的部分;
3.html_text():⽤于提取标签中的⽂本;
4.html_attrs():⽤于提取属性名称及其内容。
使⽤rvest包爬取数据简单易懂,本篇⽂章详解了节点确认并⽤⽰例加深印象,⾮常适合爬⾍⼩⽩⼊⼿。
确定节点
⽤rvest包对⽹页数据进⾏爬取时,爬取的难点及重点都是如何确认html_nodes函数中的节点参数,为节
差额选举比例省爬取数据的时间和精⼒,我们应该借助强⼤的⾕歌插件CSS⽣成器——Selectorgadget插件,它有助于我们快速找到html的节点信息,所以本篇⽂章会详细讲解如何准确确认节点。
1.⼯具:Selectorgadget插件
2.下载⽅式:可参照我上⼀篇博客,直接下载,压缩包内附有安装步骤
3.使⽤⽅式:
(1)打开⼀个⽹页,如dangdang
(2)开启SelectorGadget(点击⼀个放⼤镜图案的按钮即可);
移动⿏标箭头到⼀个页⾯元素上并单击,该页⾯元素会变成绿⾊,SelectorGadget的⽂本框内显⽰出被选中页⾯元素的css path类型的定位字符串。“clear”按钮可以清空定位字符串,“clear”按钮中的数字是指定位字符串可以匹配的页⾯元素个数,其它具有相同定位字符串的页⾯元素都将变为黄⾊。单击这些黄⾊的页⾯元素,这些元素变为红⾊,表⽰剔除它们,⽤这种⽅式不断改变定位字符串,最终⽣成被选中元素的特有的定位字符串。
英语口语交际R爬⾍⽰例:爬取当当⽹销量数据
运⽤R语⾔爬取当当⽹的销量排⾏等信息,并把数据保存在E盘csv⽂件中。
```#爬取当当⽹数据,成功⾃⼰实现
library(rvest)
library(stringr)
养什么狗最好
url <-"/books/bestllers/01.00.00.00.00.00-recent7-0-0-1-1"
web <- read_html(url, encoding ="gbk")
石塔寺
#排⾏
rank <- web %>% html_nodes(".list_num")%>% html_text()%>% as.numeric()
#书名
title <- web %>% html_nodes(" .name a")%>% html_text()
#作者
writer <- web %>% html_nodes(".publisher_info a:nth-child(1)")%>% html_text()
#价格
车位买卖合同price <- web %>% html_nodes("p:nth-child(1) .price_n")%>% html_text()%>%str_match("[0-9]{2}.[0-9]{2}")%>%as.numeric()
#出版⽇期
date <- web %>% html_nodes(".publisher_info span")%>% html_text()%>% as.Date()
不定式作宾语
#出版地址
publication_company <- web %>% html_nodes(".publisher_info span+ a")%>% html_text()
#折扣
垂涎欲滴的意思discount <- web %>% html_nodes(".price_s")%>% html_text()
#推荐率
tuijian <- web %>% html_nodes(".tuijian")%>% html_text()%>%str_match("[0-9]*")%>% as.numeric()#??str_match的⽤法??
#图书⽹址
webpage <- web %>% html_nodes(".name a")%>% html_attr("href")#⽹址就是书名中带有的链接
#提取属性特征即可
#⽣成数据框
data <- data.frame(rank, title, writer, price,publication_company, date,discount,tuijian, webpage)
write.csv(data,file="E:/gdangshuju.csv")#将爬取的数据存⼊E盘中的dangdangshuju⽂件中,R会⾃动⽣成这个⽂件,不需要⾃⼰重新创建