首页 > 英文翻译

Python爬虫系列（四）：BeautifulSoup解析HTML之把HTML转成Python对象

更新时间:2023-08-11 21:52:17 阅读：评论：0

Python爬⾍系列（四）：BeautifulSoup解析HTML之把HTML转

成Python对象

在前⼏篇⽂章，我们学会了如何获取html⽂档内容，就是从url下载⽹页。今天开始，我们将讨论如何将html转成python对象，⽤python代码对⽂档进⾏分析。

(⽜⼩妹在学校折腾了好⼏天，也没把html⽂档给分析出来。接下来的⼏篇⽂章，你可就要好好看了)

兴奋读音Beautiful Soup将复杂HTML⽂档转换成⼀个复杂的树形结构，每个节点都是Python对象，所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment

Tag 对象与XML或HTML原⽣⽂档中的tag相同

获取和修改对象的名称及属性

from bs4 import BeautifulSoup

#注意，第⼆个参数⼀定是这样⽤字符串，照官⽅⽂档要报错。现在BeautifulSoup 是4.6

soup = BeautifulSoup('Extremely bold', "lxml-xml")

tag = soup.b

#b标签对应的python对象

print(type(tag))

print(tag.name)

#修改标签 name 不是标签的name属性，⽽是标签⾃⾝

tag.name = "blockquote"

print(tag)

#获取属性

print(tag['class'])

#获取多个属性

print(tag.attrs)

#修改属性

tag['class'] = 'verybold'

tag['id'] = 1

print(tag)

#删除属性

del tag['class']

del tag['id']

print(tag)

#已经没有class属性获取就报错

print(tag['class'])

('class'))

多指属性：

是指⼀个属性有多个值。

open up your dream

注意：这⾥使⽤的是 lxml-xml 解析器所以看不出来是多值。⽤html。parr转出来的就是多值。

css_soup = BeautifulSoup('', "lxml-xml")

print(css_soup.p['class'])

css_soup = BeautifulSoup('', "lxml-xml")

print(css_soup.p['class'])

dimensions对应结果：

席慕容一棵开花的树body strikeout

body

如果某个属性看起来好像有多个值，但在任何版本的HTML定义中都没有被定义为多值属性，那么Beautiful Soup会将这个属性作为字符串返回

violently

id_soup = BeautifulSoup('', "lxml-xml")

#返回的是字符串

print(id_soup.p['id'])

将tag转换成字符串时，多值属性会合并为⼀个值

rel_soup = BeautifulSoup('Back to the <a rel="index">homepage</a>', "lxml-xml")

print(rel_soup.a['rel'])

rel_soup.a['rel'] = ['index', 'contents']

print(rel_soup.p)

展⽰结果：

Back to the <a rel="index contents">homepage</a>

注意看a 标签的rel属性

可以遍历的字符串

字符串常被包含在tag内.Beautiful Soup⽤ NavigableString 类来包装tag中的字符串emmanuelle chriqui

soup = BeautifulSoup('Extremely bold')

dear timmoabtag = soup.b

print(tag.string)

print(type(tag.string))

结果：

Extremely bold

⼀个 NavigableString 字符串与Python中的Unicode字符串相同，并且还⽀持包含在和中的⼀些特性. 通过 unicode() ⽅法可以直接将NavigableString 对象转换成Unicode字符串

from bs4 import BeautifulSoup

from lxml.html.clean import unicode

conductancesoup = BeautifulSoup('Extremely bold')

tag = soup.b

unicode_string = unicode(tag.string)

print(unicode_string)

英语口音纠正课程结果：

Extremely bold

tag中包含的字符串不能编辑，但是可以被替换成其它的字符串,⽤⽅法:

from bs4 import BeautifulSoup

soup = BeautifulSoup('Extremely bold')

tag = soup.b

place_with("No longer bold")

print(tag)

结果：

No longer bold

注意：

NavigableString 对象⽀持和中定义的⼤部分属性, 并⾮全部.尤其是,⼀个字符串不能包含其它内容(tag能够包含字符串或是其它tag)，字符串不⽀持 .contents 或 .string 属性或 find() ⽅法.

如果想在Beautiful Soup之外使⽤ NavigableString 对象，需要调⽤ unicode() ⽅法，将该对象转换成普通的Unicode字符串，否则就算Beautiful Soup已⽅法已经执⾏结束，该对象的输出也会带有对象的引⽤地址.这样会浪费内存.

BeautifulSoup对象

BeautifulSoup 对象表⽰的是⼀个⽂档的全部内容.⼤部分时候，可以把它当作 Tag 对象，它⽀持和中描述的⼤部分的⽅法.

因为 BeautifulSoup 对象并不是真正的HTML或XML的tag，所以它没有name和attribute属性.但有时查看它的 .name 属性是很⽅便的，所以

BeautifulSoup 对象包含了⼀个值为 “[document]” 的特殊属性 .name

知道即可

注释及特殊字符串

Tag , NavigableString , BeautifulSoup ⼏乎覆盖了html和xml中的所有内容，但是还有⼀些特殊对象.容易让⼈担⼼的内容是⽂档的注释部分from bs4 import BeautifulSoup, CData

markup = ""

soup = BeautifulSoup(markup)

comment = soup.b.string

print(type(comment))

# Comment 对象是⼀个特殊类型的 NavigableString 对象:

print(comment)

#美化后的输出结果

print(soup.b.prettify())

# Beautiful Soup中定义的其它类型都可能会出现在XML的⽂档中:

# CData , ProcessingInstruction , Declaration , Doctype .与 Comment 对象类似,

# 这些类都是 NavigableString 的⼦类，只是添加了⼀些额外的⽅法的字符串独享.

# 下⾯是⽤CDATA来替代注释的例⼦:

cdata = CData("A CDATA block")

print(soup.b.prettify())

#

# <![CDATA[A CDATA block]]>

#

本文发布于:2023-08-11 21:52:17，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/90/194058.html

上一篇：datalist分页

下一篇：字体显示（Fontdisplay）

标签：对象属性字符串包含获取

留言与评论（共有 0 条评论）