⼀⽂带你了解Python中的字符串是什么
通过本⽂⼩编带你了解Python中的字符串是什么,本⽂给⼤家介绍的⾮常详细,具有⼀定的参考借鉴价值,需要的朋友可以参考下。
1 Python字符串是什么?
根据维基百科定义:字符串是由零个或多个字符组成的有限序列。⽽在Python 3中,它有着更明确的意思: 字符串是由Unicode码点组成的不可变序列 (Strings are immutable quences of Unicode code points.)
字符串是⼀种序列,这意味着它具备序列类型都⽀持的操作:鲫鱼木瓜汤
# 以下的s、t皆表⽰序列,x表⽰元素
x in s # 若s包含x,返回True,否则返回Fal
x not in s # 若s包含x,返回Fal,否则返回True
s + t # 连接两个序列
s * n # s复制n次什么是封闭图形
s[i] # s的索引第i项
s[i:j] # s切⽚从第i项到第j-1项
s[i:j:k] # s切⽚从第i项到第j-1项,间隔为k
len(s) # s的长度
min(s) # s的最⼩元素
max(s) # s的最⼤元素
s.index(x) # x的索引位置
字符串序列还具备⼀些特有的操作,限于篇幅,按下不表。预告⼀下,下⼀篇《 你真的知道Python的字符串怎么⽤吗? 》将会展开介绍,敬请期待……
字符串序列是⼀种不可变序列,这意味着它不能像可变序列⼀样,进⾏就地修改。例如,在字符串“Python”的基础上拼接“Cat”,得到字符串“PythonCat”,新的字符串是⼀个独⽴的存在,它与基础字符串“Python”并没有关联关系。
baname = "Python"
myname = baname + "Cat"
id(baname) == id(myname) >>> Fal
baname = "Python"
myname = baname + "Cat"
大面小学
id(baname) == id(myname) >>> Fal
1
2
3
4
# 作为对⽐,列表能就地修改
balist = ["Python"]
balist.append("Cat")
print(balist) >>> ['Python', 'Cat']
字符串这种序列与其它序列(如列表、元组)的不同之处在于,它的“元素”限定了只能是Unicode码点。Unicode码点是什么呢?简单理解,就是⽤Unicode编码的字符。那字符是什么呢? 字符 是⼈类书写系统的各类符号,例如阿拉伯数字、拉丁字母、中⽂、⽇⽂、藏⽂、标点符号、控制符号(换⾏符、制表符等)、其它特殊符号(@#¥%$*等等)。那Unicode编码⼜是什么呢?Unicode别名是万国码、国际码,它是⼀种适⽤性最⼴的、将书写字符编码为计算机数字的标准。
总所周知,在最底层的计算机硬件世界⾥,只有0和1。那么,怎么⽤这个⼆进制数字,来表⽰⼈类的⽂化性的字符呢?这些字符数量庞⼤,⽽且还在⽇益增长与变化,什么样的编码⽅案才是最靠谱的呢?
历史上,⼈类创造了多种多样的字符编码标准,例如ASCII(1963年)编码,以西欧语⾔的字符为主,它的缺点是只能编码128个字符;例如GB2312(1981年),这是中国推出的编码标准,在兼容ASCII标准的基础上,还加⼊了对⽇⽂、俄⽂等字符的编码,但缺点仍是编码范围有限,⽆法表⽰古汉语、繁体字及更多书写系统的字符。
Unicode编码标准于1991年推出,⾄今迭代到了第11版,已经能够编码146个书写系统的130000个字符,可谓是⽆所不包,真不愧衣者
是“国际码”。Unicode编码其实是⼀个⼆进制字符集,它建⽴了从书写字符映射成唯⼀的数字字符的关系,但是,由于各系统平台对字符的理解差异,以及出于节省空间的考虑,Unicode编码还需要再做⼀次转换,转换后的新的⼆进制数字才能作为 实际存储及⽹络传输时的编码 。
这种转换⽅式被称为 Unicode转换格式 (Unicode Transformation Format,简称为UTF),它⼜细分为UTF-8、UTF-16、UTF-32等等⽅式。我们最常⽤的是UTF-8。为什么UTF-8最常⽤呢?因为它是可变长度的编码⽅案,针对不同的字符使⽤不同的字节数来编码,例如编码英⽂字母时,只需要⼀个字节(8个⽐特),⽽编码较复杂的汉字时,就会⽤到三个字节(24个⽐特)。
⼆进制的编码串可以说是给机器阅读的,为了⽅便,我们通常会将其转化为⼗六进制,例如“中”字的Unicode编码可以表⽰成 0x4e2d ,其UTF-8编码可以表⽰为 0xe4b8ad ,'0x'⽤于开头表⽰⼗六进制,
蒸鱼怎么蒸这样就简洁多了。不过,UTF-8编码的结果会被表⽰成以字节为单位的形式,例如“中”字⽤UTF-8编码后的字节形式是 \xe4\xb8\xad 。
Python中为了区分Unicode编码与字节码,分别在开头加“u”和“b”以⽰区分。在Python 3中,因为Unicode成了默认编码格式,所以“u”被省略掉了。
# 字符转Unicode编码
# Python3中,开头的u被省略,b不可省略
hex(ord('中')) >>> '0x4e2d'
hex(ord('A')) >>> '0x41'
# 字符转UTF-8编码(encode)
'中'.encode('utf-8') >>> b'\xe4\xb8\xad'
'A'.encode('utf-8') >>> b'A'
# Unicode编码还原成字符
chr(0x4e2d) >>> '中'
chr(0x41) >>> 'A'
# UTF-8编码还原成字符(decode)
b'\xe4\xb8\xad'.decode('utf-8') >>> '中'
b'A'.decode('utf-8') >>> 'A'
总结⼀下,Python 3 中的字符串是由Unicode码点组成的不可变序列,也即是,由采⽤Unicode标准编码的字符组成的不可变序列。Unicode编码将书写系统的字符映射成了计算机⼆进制数字,为了⽅便,通常显⽰为⼗六进制;在运算内存中,字符以Unicode编码呈现,当写⼊磁盘或⽤于⽹络传输时,⼀般采⽤UTF-8⽅式编码。
在Python 2中,因为历史包袱,即Python先于Unicode编码⽽诞⽣,所以其编码问题是个⼤难题。幸好抛弃Python 2已成⼤势所趋,所以我就不再对此做介绍或⽐对了。
2 Python字符串 VS Java字符串
虽然不提纵向版本间的差异,但是,我想将Python字符串与其它编程语⾔做⼀个横向对⽐。我觉得这会是挺好玩的事。通过跨语⾔的⽐较,也许我们能加深对⼀个事物(字符串)的理解,还可能受到启发,得到对“编程语⾔”及“编程哲学”的领悟。
由于本⼈才疏学浅,本⽂就只对两点⽪⽑特性作说明,欢迎读者斧正和补充。
(1)字符串的定义⽅式
Python的字符串是内置类型,所以使⽤起来很⽅便,有如下三种定义⽅式:
3
4
5
6
str_0 = '''Python字符串可以写在⽤三引号对内,表⽰多⾏字符串。
还可以写在单引号对内,
火影忍者的头像
最可爱的猫当然还可以写在双引号对内。
'''
str_1 = 'Python猫是⼀只猫'
str_2 = "Python猫是⼀个微信公众号"
Java的字符串不是内置类型,它属于对象,需要通过String类来创建。不过,正因为字符串太常⽤,所以Java特意预定义了⼀个字符串类String,使得程序员也可以像这样来定义: String name = "Python猫"; ,⽽不必这样写: String name = new String("Python猫"); 。
Java的字符串只能写在双引号内,不具备Python中单双引号混⽤的灵活。⾄于三引号的多⾏字符串表⽰法,Java程序员表⽰羡慕得要死,那种痛苦,受过折磨的⼈最懂。写出来让Python程序员开⼼⼀下:
2
中秋绘画3
String s = "Java 的多⾏字符串很⿇烦,\n"
+ "既要使⽤换⾏符,\n"
+ "还需要使⽤加号拼接";
为什么Java不⽀持多⾏字符串、什么时候⽀持多⾏字符串?此类问题在Python程序员眼⾥,可能很费解,但它绝对能排进“Java程序员最希望能实现的特性”的前列。好不容易,官⽅有计划在Java 11 实现,但今年9⽉发布的Java 11 仍是没有,现在改计划到Java 12 了。
(2)单个字符与字符序列
Java中其实也有单引号的使⽤,⽤在char类型上,例如 char c = 'A'; 。char是⼀种内置类型,表⽰单个⽤Unicode编码的字符。Python 中没有char类型,字符串类型通吃⼀切。
前⾯说到,Python的字符串是⼀种字符序列,⽽Java的字符串并不是⼀种序列,要表⽰相近的概念的话,就得⽤到 字符数组 或者 字符串数组 ,例如:
char[] a = { 'a', 'b', 'c'};
String[] str = new String[]{"1","2","3"};
字符数组和字符串数组是⼀种序列,但并不是字符串,它们之间如果要相互转换,还是挺⿇烦的。另外,说是序列,但Java的序列操作绝对⽆法跟Python相⽐,别的不说,就上⾯提及的⼏个基础操作,试问Java能否实现、实现起来要花费多⼤⼒⽓?
最后来个Ending,关于“Python字符串到底是什么”就说到这啦,希望对你有所帮助。
结尾:
我是⼀名python开发⼯程师,整理了⼀套最新的python系统学习教程,包括从基础的python脚本到web开发、爬⾍、数据分析、数据可视化、机器学习,⾯试宝典。想要这些资料的可以关注⼩编,加Q裙937963151⾃取Python学习资料和学习视频,还有⼤神在线指导哦!