首页 > 编程 > Python > 正文

关于你不想知道的所有Python3 unicode特性

2020-02-23 06:13:47
字体:
来源:转载
供稿:网友

我的读者知道我是一个喜欢痛骂Python3 unicode的人。这次也不例外。我将会告诉你用unicode有多痛苦和为什么我不能闭嘴。我花了两周时间研究Python3,我需要发泄我的失望。在这些责骂中,仍然有有用的信息,因为它教我们如何来处理Python3。如果没有被我烦到,就读一读吧。

这次吐槽的内容会不一样。不会关联到WSGI或者HTTP及与其相关的东西。通常,我被告知我应该停止抱怨Python3 Unicode系统,因为我不写别人经常写的代码(HTTP库之类的东西),所以我这次准备写点别的东西:一个命令行应用程序。我写了一个很方便的库叫click来让编写它更加简单。

注意,我做的是每一个新手Python程序员做的事情:写一个命令行应用程序。Hello World程序。但是不同以往,我想要确保应用程序是稳定的并且对于Python2和Python3的Unicode都是支持的,还能够进行单元测试。所以接下来的就是如何来实现它。

我们想做什么

在Python3我们作为开发者需要好好使用Unicode。显然,我觉得这意味着所有的文本数据都是Unicode,所有非文本数据都是字节。在这么美妙的世界里所有的东西只有黑与白,Hello World的例子非常直截了当。所以让我们来写一些shell工具吧。

这是用Python2形式实现的应用程序:

import sysimport shutil for filename in sys.argv[1:]:  f = sys.stdin  if filename != '-':    try:      f = open(filename, 'rb')    except IOError as err:      print >> sys.stderr, 'cat.py: %s: %s' % (filename, err)      continue  with f:    shutil.copyfileobj(f, sys.stdout)

显然,命令在处理任何命令行选项的时候也不是特别好,不过至少能够用。所以我们开始码代码吧。

UNIX里的UNICODE

上面的代码在Python2是不行的,因为你暗中处理字节。命令行参数是字节,文件名是字节,文件内容也是字节。语言卫道士会指出这是不对的,这样会引发问题,但如果你开始更多考虑它,你会发现这是个不固定的问题。

UNIX是字节,已经被定义成了这样,并且一直会是这样。为了理解为什么你需要观察数据传输的不同场景。

终端 命令行参数 操作系统输入输出层 文件系统驱动

顺便提一下,这不是数据可能通过的唯一东西,但是我们来了解一下,在多少场景下我们能了解一个编码。答案是一个也没有。至少我们需要理解一个编码是终端输出区域信息。这个信息可以用来展现转换,也能够理解文本信息所拥有的编码。

举个例子,如果LC_CTYPE的值为en_US.utf-8告诉应用程序系统使用US English,并且大部分文本数据是utf-8编码。实际上还有很多别的变量,不过我们假定这是我们唯一需要看的。注意LC_CTYPE并不代表所有的数据都是utf-8编码的。它代替通知应用程序如何分类文本特性并且什么时候需要应用转换。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表