Python处理中文标点符号大集合

2020-01-04 15:05:21

字体：大中小

来源：转载

供稿：网友

中文文本中可能出现的标点符号来源比较复杂，通过匹配等手段对他们处理的时候需要格外小心，防止遗漏。以下为在下处理中文标点的时候采用的两种方法:

中文标点集合

比较常见标点有这些：

！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏.

调用zhon包的zhon.hanzi.punctuation函数即可得到这些中文标点。

如果想用英文的标点，则可调用string包的string.punctuation函数可得到：

!"#$%&/'()*+,-./:;<=>?@[//]^_`{|}~

因此，比如需要将所有标点符号去除，可以进行以下操作：

>>> import re>>> from zhon.hanzo import punctuation>>> line = "测试。。去除标点。。">>> print re.sub("[{}]+".format(punctuation), "", line.decode("utf-8")) # 需要将str转换为unicode

当然，如果想去除重复的符号而只保留一个，那么可以用/1指明：比如

>>> re.sub(ur"([{}])+".format(punctuation), "/1", line.decode("utf-8"))

你也可以手工指定这些标点符号

punctuation = """！？｡＂＃＄％＆＇（）＊＋－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏"""re_punctuation = "[{}]+".format(punctuation)line = re.sub(re_punctuation, "", line)

可以通过直接指定unicode码范围的办法来strip，比如:

去除所有半角全角符号，只留字母、数字、中文

def remove_punctuation(line):  rule = re.compile(ur"[^a-zA-Z0-9/u4e00-/u9fa5]")  line = rule.sub('',line)  return line

汉字的范围为”/u4e00-/u9fa5“，这个是用Unicode表示的，所以前面必须要加”u“；字符”r“的意思是表示忽略后面的转义字符，这样简化了后面正则表达式里每遇到一个转义字符还得挨个转义的麻烦

最后可以组合成为一个函数

def remove_punctuation(line, strip_all=True):  if strip_all:    rule = re.compile(ur"[^a-zA-Z0-9/u4e00-/u9fa5]")    line = rule.sub('',line)  else:    punctuation = """！？｡＂＃＄％＆＇（）＊＋－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏"""    re_punctuation = "[{}]+".format(punctuation)    line = re.sub(re_punctuation, "", line)  return line.strip()

清洗完毕后，有时候我们希望按照多个标点符号来分割

比如只要遇到中文或英文的逗号和句号等符号就分割，可以直接用translate把这些符号翻译为统一的分隔符，再split:

strip_chars = '？"。.，,《》[]〖〗“”'single_line = single_line.translate(str.maketrans(dict.fromkeys(strip_chars, '#')))single_line = single_line.split('#')

总结

以上所述是小编给大家介绍的Python处理中文标点符号大集合，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对VEVB武林网网站的支持！

注：相关教程知识阅读请移步到python教程频道。

上一篇：查看Django和flask版本的方法

下一篇：python numpy格式化打印的实例

学习交流

解决内存不足妙方

解决内存不足妙方...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

雷军2020新年全员信：“5G+AIoT”五年投500亿

2020-01-03 21:43:53

春运售票超3亿张！售票总量再创历史新高

2020-01-03 20:41:46

Windows10市场份额全球第一微软是否再无敌手？

2020-01-03 20:31:47

比尔盖茨一次错误，付出2.8万亿的代价

2020-01-02 08:44:34

长江迎来最长禁渔期：十年禁渔，方才有鱼

2020-01-02 08:28:02

快手封杀淘宝？回应：系统升级，淘宝商品暂无法审核

2020-01-01 22:50:39

疑难解答

图片精选

网友关注