Python决策树之基于信息增益的特征选择示例

2020-02-15 22:00:57

字体：大中小

来源：转载

供稿：网友

本文实例讲述了Python决策树之基于信息增益的特征选择。分享给大家供大家参考，具体如下：

基于信息增益的特征选取是一种广泛使用在决策树(decision tree)分类算法中用到的特征选取。该特征选择的方法是通过计算每个特征值划分数据集获得信息增益，通过比较信息增益的大小选取合适的特征值。

信息的期望值，可理解为数据集的无序度，熵的值越大，表示数据越无序，公式如下：

其中H表示该数据集的熵值， pi表示类别i的概率，若所有数据集只有一个类别，那么pi=1，H=0。因此H=0为熵的最小值，表示该数据集完全有序。

熵的减少或者是数据无序度的减少。

1、计算原始数据的信息熵H1

2、选取一个特征，根据特征值对数据进行分类，再对每个类别分别计算信息熵，按比例求和，得出这种划分方式的信息熵H2

3、计算信息增益：

infoGain = H1 - H2

4、根据2，3计算所有特征属性对应的信息增益，保留信息增益较大的特征属性。

海洋生物数据

被分类项/特征	不浮出水面是否可以生存	是否有脚蹼	属于鱼类
1	是	是	是
2	是	是	是
3	是	否	否
4	否	是	否
5	否	是	否

p(是鱼类) = p1 =0.4
p(非鱼类) = p2 =0.6

通过信息熵公式可得原始数据信息熵 H1 = 0.97095

选择'不服出水面是否可以生存'作为分析的特征属性

可将数据集分为[1,2,3]与[4,5]，分别占0.6和0.4。

[1,2,3]可计算该类数据信息熵为 h1=0.918295834054

[4,5] 可计算该类数据信息熵为 h2=0

计算划分后的信息熵 H2 = 0.6 * h1 + 0.4 * h2 = 0.550977500433

infoGain_0 = H1-H2 = 0.419973094022

同理可得对特征'是否有脚蹼'该特征计算信息增益 infoGain_1 = 0.170950594455

比较可得，'不服出水面是否可以生存'所得的信息增益更大，因此在该实例中，该特征是最好用于划分数据集的特征

学习交流

如何重启打印机打印服务

热门图片

猜你喜欢的新闻

猜你喜欢的关注