用Python从零实现贝叶斯分类器的机器学习的教程

2020-02-23 00:27:01

字体：大中小

来源：转载

供稿：网友

朴素贝叶斯算法简单高效，在处理分类问题上，是应该首先考虑的方法之一。

通过本教程，你将学到朴素贝叶斯算法的原理和Python版本的逐步实现。

更新：查看后续的关于朴素贝叶斯使用技巧的文章“Better Naive Bayes: 12 Tips To Get The Most From The Naive Bayes Algorithm”
2015331103455462.jpg (640×410) 朴素贝叶斯分类器，Matt Buck保留部分版权
关于朴素贝叶斯

朴素贝叶斯算法是一个直观的方法，使用每个属性归属于某个类的概率来做预测。你可以使用这种监督性学习方法，对一个预测性建模问题进行概率建模。

给定一个类，朴素贝叶斯假设每个属性归属于此类的概率独立于其余所有属性，从而简化了概率的计算。这种强假定产生了一个快速、有效的方法。

给定一个属性值，其属于某个类的概率叫做条件概率。对于一个给定的类值，将每个属性的条件概率相乘，便得到一个数据样本属于某个类的概率。

我们可以通过计算样本归属于每个类的概率，然后选择具有最高概率的类来做预测。

通常，我们使用分类数据来描述朴素贝叶斯，因为这样容易通过比率来描述、计算。一个符合我们目的、比较有用的算法需要支持数值属性，同时假设每一个数值属性服从正态分布（分布在一个钟形曲线上），这又是一个强假设，但是依然能够给出一个健壮的结果。
预测糖尿病的发生

本文使用的测试问题是“皮马印第安人糖尿病问题”。

这个问题包括768个对于皮马印第安患者的医疗观测细节，记录所描述的瞬时测量取自诸如患者的年纪，怀孕和血液检查的次数。所有患者都是21岁以上（含21岁）的女性，所有属性都是数值型，而且属性的单位各不相同。

每一个记录归属于一个类，这个类指明以测量时间为止，患者是否是在5年之内感染的糖尿病。如果是，则为1，否则为0。

机器学习文献中已经多次研究了这个标准数据集，好的预测精度为70%-76%。

下面是pima-indians.data.csv文件中的一个样本，了解一下我们将要使用的数据。

注意：下载文件，然后以.csv扩展名保存（如：pima-indians-diabetes.data.csv）。查看文件中所有属性的描述。

 6,148,72,35,0,33.6,0.627,50,11,85,66,29,0,26.6,0.351,31,08,183,64,0,0,23.3,0.672,32,11,89,66,23,94,28.1,0.167,21,00,137,40,35,168,43.1,2.288,33,1

朴素贝叶斯算法教程

教程分为如下几步：

1.处理数据：从CSV文件中载入数据，然后划分为训练集和测试集。

2.提取数据特征：提取训练数据集的属性特征，以便我们计算概率并做出预测。

3.单一预测：使用数据集的特征生成单个预测。

上一篇：pymongo实现控制mongodb中数字字段做加法的方法

下一篇：python根据出生年份简单计算生肖的方法

学习交流

笔记本开机提示error loading os错误的问

笔记本开机提示error loading os错误的问题怎么解决...

热门图片

猜你喜欢的新闻

猜你喜欢的关注