首页 > 编程 > Python > 正文

python中文编码与json中文输出问题详解

2020-02-15 22:48:16

字体：大中小

来源：转载

供稿：网友

前言

python2.x版本的字符编码有时让人很头疼，遇到问题，网上方法可以解决错误，但对原理还是一知半解，本文主要介绍 python 中字符串处理的原理，附带解决 json 文件输出时，显示中文而非 unicode 问题。首先简要介绍字符串编码的历史，其次，讲解 python 对于字符串的处理，及编码的检测与转换，最后，介绍 python 爬虫采取的 json 数据存入文件时中文输出的问题。

参考书籍：Python网络爬虫从入门到实践 by唐松

在python 2或者3 ，字符串编码只有两类：

（1）通用的Unicode编码；

（2）将Unicode转化为某种类型的编码，如UTF-8，GBK；

1、计算机历史：

计算机只处理数字，因此处理文本时，必须转换成数字才行。

8位（bit）=1字节（byte）=256种不同状态=从000000到111111；

1GB=1024M=1024（1024kb）=1024（1024（1024b））；

ASCII编码是对应英文字符与二进制数字之间的关系；ASCII一共规定了128种，如大写字母A是65，即01000001；可见一字母一字节；

GB2312编码简体中文常见的编码，两个字节代表一个中文汉字，理论上256*256个编码，即可表示65536种中文字；

各国编码不同，为了各国能扩平台进行文本的转换与处理，Unicode就被作为统一码或者单一码。Unicode编码通常是两个字节，unicode与ASCII编码的区别，在于unicode在ASCII编码前加了一个0，即字母A的ASCII编码为01000001，unicode编码即为0000000001000001;但英文字母其实只用一个字节就够了，unicode编码写英文时多了一个字节，浪费存储空间。因而unicode开发了通用转换格式（Unicode Transformation Format(UTF)）,常见的有utf-8或者utf-16；

要明白encode()和decode()的区别

encode()的作用是将Unicode编码的字符串转换为其他编码格式。

例如： st1.encode("utf-8") 这句话的作用是将Unicode编码的st1编码为utf-8编码的字符串

decode()的作用是把其他编码格式的字符串转换成Unicode编码的字符串。

例如： st2.decode("utf-8") 这句话的作用是将utf-8编码的字符串st2解码为Unicode编码的字符串

第二，除Unicode编码的字符串以外，任何一种编码的字符串要想转换为其他编码格式，必须先解码后编码

非Unicode编码--> Unicode编码-->非Unicode编码

例如，utf-8编码的字符串st想要转换为gbk编码的字符串，必须经过以下步骤：

st=st.decode("utf-8") #解码为Unicode编码st=st.encode("gbk") #从Unicode编码编码为gbk编码

第三，我们经常使用的utf-8编码还分为有BOM的和无BOM的。

第四：关于json文件的中文编码。用Python读取Json文件时经常用到json.load()函数，该函数对json文件的格式是有要求的

上一篇：示例详解Python3 or Python2 两者之间的差异

下一篇：Python面向对象之静态属性、类方法与静态方法分析

学习交流

如何重启打印机打印服务

如何重启打印机打印服务...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

明兮语文停止运营发展资金链断裂

2020-02-16 09:52:44

2006年李俊编写了“熊猫烧香”电脑病毒，现在过得怎么样？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未来会如何发展？

2020-02-11 22:02:38

NASA说今天地球引力最小能让扫帚立起来？原因很简单

2020-02-11 21:45:12

TCL集团宣布今日起正式更名为“TCL科技”

2020-02-07 10:36:18

黑莓曲终落，情怀价几何？

2020-02-06 12:16:44

疑难解答

图片精选

网友关注