首页 > 作文

java网络爬虫可以爬什么数据（免费分享java网络爬虫实战技巧）

更新时间:2023-04-05 04:45:30 阅读：评论：0

文章目录

前言1.引入依赖：2.代码实战：3.代理说明：总结

前言

诗歌网

现在一提到爬虫都是python，类库比较丰富，如果不会java的同学，去学习python爬虫比较靠谱，但是那是不是代表java就不能爬虫呢？肯定不是的，事实上一些场景下，java爬虫使用起来更方便，更好用。

1.引入依赖：

java当中爬虫使用的是jsoup的类库，jsoup提供了一套非常省力的api，可通过dom，css以及类似于jquery的操作方法来取出和操作数据，让你请求网页后可以对网页进行dom操作达到爬虫的目的。

 <dependency>            <groupid>org.jsoup</groupid>            <artifactid>jsoup</artifactid>            <version>1.10.3</version>        </dependency>

2.代码实战：

案例一：
爬虫股票的分析魔法少女皮肤结果：

 stockshow stockshow = new stockshow();        string dourl = string.format("url", stockcode);        document doc = null;        try {            doc = jsoup.connect(dourl).get();            elements stockname = doc.lect("div[class=stockname]");            elements stocktotal = doc.lect("div[class=stocktotal]");            elements shortst蟾蜍吃蛇r = doc.lect("li[class=short]");            elements midstr = doc.lect("li[class=mid]");            elements longstr = doc.lect("li[class=long]");            elements stocktype = doc.lect("div[class=value_bar]").lect("span[class=cur]");            stockshow.tstockname(stockname.get(0).text());            stockshow.tstocktotal(stocktotal.get(0).text().split("：")[1]);            stockshow.tshortstr(shortstr.get(0).text().split("：")[1]);            stockshow.tmidstr(midstr.get(0).text().split("：")[1]);            stockshow.tlongstr(longstr.get(0).text().split("：")[1]);            stockshow.tstocktype(stocktype.get(0).text());        } catch (ioexception e) {            log.error("findstockanalysisbystockcode,{}",e.getmessage());        }

案例2：
抓取学校的信息：

 campus campus = new campus();        string dourl = string.format(url, campusid);        document doc = null;        if (stringutils.impty(arg.getip())){           现实又很扎心的句子 arg.tip("transfer.moguproxy.com");            arg.tport(9001);        }        try {            httpsutil.trusteveryone();            rand杜牧的古诗om r = new random();            int random = r.nextint(48);            connection conn = jsoup.connect(dourl).proxy(arg.getip(), arg.getport());//.timeout(10000)            conn .header("proxy-authorization", "basic "+"v1vxb2syu29mbujwtvy2rjpmthn5tdm0c3byqlfrm3hw").uragent(ua[random]).timeout(30000);            doc = conn.get();            elements names = doc.lect("a[class=btn btn-xs btn-primary]");            elements type = doc.lect("a[class=campus_type_fix_b link_now_active]");//            doc.lect("ol[class=breadcrumb]").lect("li").get(4).text()            elements campusname = doc.lect("ol[class=breadcrumb]").lect("li");            elements addressandtel = doc.lect("div[class=page-header]").lect("p");