Python实现购物评论文本情感分析操作【基于中文文本挖掘库sno

2020-02-15 22:42:23

字体：大中小

来源：转载

供稿：网友

本文实例讲述了Python实现购物评论文本情感分析操作。分享给大家供大家参考，具体如下：

昨晚上发现了snownlp这个库，很开心。先说说我开心的原因。我本科毕业设计做的是文本挖掘，用R语言做的，发现R语言对文本处理特别不友好，没有很多强大的库，特别是针对中文文本的，加上那时候还没有学机器学习算法。所以很头疼，后来不得已用了一个可视化的软件RostCM，但是一般可视化软件最大的缺点是无法调参，很死板，准确率并不高。现在研一，机器学习算法学完以后，又想起来要继续学习文本挖掘了。所以前半个月开始了用python进行文本挖掘的学习，很多人都推荐我从《python自然语言处理》这本书入门，学习了半个月以后，可能本科毕业设计的时候有些基础了，再看这个感觉没太多进步，并且这里通篇将nltk库进行英文文本挖掘的，英文文本挖掘跟中文是有很大差别的，或者说学完英文文本挖掘，再做中文的，也是完全懵逼的。所以我停了下来，觉得太没效率了。然后我在网上查找关于python如何进行中文文本挖掘的文章，最后找到了snownlp这个库，这个库是国人自己开发的python类库，专门针对中文文本进行挖掘，里面已经有了算法，需要自己调用函数，根据不同的文本构建语料库就可以，真的太方便了。我只介绍一下这个库具体应用，不介绍其中的有关算法原理，因为算法原理可以自己去学习。因为我在学习这个库的时候，我查了很多资料发现很少或者基本没有写这个库的实例应用，很多都是转载官网对这个库的简介，所以我记录一下我今天的学习。

首先简单介绍一下这个库可以进行哪些文本挖掘。snownlp主要可以进行中文分词（算法是Character-Based Generative Model）、词性标注（原理是TnT、3-gram 隐马）、情感分析（官网木有介绍原理，但是指明购物类的评论的准确率较高，其实是因为它的语料库主要是购物方面的，可以自己构建相关领域语料库，替换原来的，准确率也挺不错的）、文本分类（原理是朴素贝叶斯）、转换拼音、繁体转简体、提取文本关键词（原理是TextRank）、提取摘要（原理是TextRank）、分割句子、文本相似（原理是BM25）。官网还有更多关于该库的介绍，在看我这个文章之前，建议先看一下官网，里面有最基础的一些命令的介绍。官网链接：https://pypi.python.org/pypi/snownlp/0.11.1。

PS：可以直接使用pip install snownlp 命令进行snownlp模块的快速安装（注：这里要求pip版本至少为18.0）。

下面正式介绍实例应用。主要是中文文本的情感分析，我今天从京东网站采集了249条关于笔记本的评论文本作为练习数据，由于我只是想练习一下，没采集更多。然后人工标注每条评论的情感正负性，情感正负性就是指该条评论代表了评论者的何种态度，是褒义还是贬义。以下是样例

上一篇：Python爬虫之pandas基本安装与使用方法示例

下一篇：Python爬虫之正则表达式基本用法实例分析