python:编码和解码
关于编码方式:
美国 - ASCII 256个
中国 - GBK 有很多gbk的子集,比如gb312
万国码 - unicode 一个中文4个字节,占用内存较多
万国码 - utf-8 一个中文3个字节
使用时的tips:
mac/linux open默认打开文件的编码格式 utf-8
win open默认打开文件的编码格式 gbk
读取文件时 open,mode中带有b,无需再写encoding,因为已经是二进制
编码与解码使用代码:
(1)编码:将中文编码成二进制
content = "中国".encode('gbk')#结果是:b'\xd6\xd0\xb9\xfa',gbk编码方式一个中文2个字节
content2 = "中国".encode('utf-8')#结果是:b'\xe4\xb8\xad\xe5\x9b\xbd',uft-8是一个中文3个字节
(2)解码
content.decode('gbk')