决策树

定义：对实例进行分类的树形结构，通过多层判断区别所属目标

本质：通过多层判断，从训练数据集中归纳出一组分类规则

优点

计算量小，运算速度快
易于理解，可清晰查看各个属性的重要性

缺点

忽略属性间的相关行
样本类别分布不均匀时，容易影响模型表现

**ID3:**利用信息熵原理选择信息增益最大的属性进行分类属性，递归的拓展决策树的分支，完成决策树的构造

信息熵：度量随机变量不确定的指标，熵越大，变量的不确定性就越大。假定当前样本集合D中第k类样本所占的比例为: p_x,则D的信息熵为：
$$
Ent(D)= -\sum_{k=1}^{|y|}p_k\log_2p_k
$$
根据信息熵可以计算以属性a进行样本划分带来的信息增益：
$$
Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{D^v}{D}Ent(D^v)
$$
V为根据属性a划分出的类别数，D为当前样本总数，D^v为类别v样本数

目标：划分后样本分布不确定性尽可能小，即划分后信息熵小，信息增益大

例子：