还剩12页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
1、考虑表中二元分类问题的训练样本集
1.整个训练样本集关于类属性的熵是多少?
2.关于这些训练集中a1a2的信息增益是多少?
3.对于连续属性a3计算所有可能的划分的信息增益
4.根据信息增益,a1a2a3哪个是最佳划分
5.根据分类错误率,a1a2哪具最佳?
6.根据gini指标,a1a2哪个最佳?答
1.P+=4/9andP−=5/9−4/9log24/9−5/9log25/9=
0.
9911.答2(估计不考)答3答4:Accordingtoinformationgaina1producesthebestsplit.答5Forattributea1:errorrate=2/
9.Forattributea2:errorrate=4/
9.Thereforeaccordingtoerrorratea1producesthebestsplit.答
62、考虑如下二元分类问题的数据集
1.计算a.b信息增益,决策树归纳算法会选用哪个属性
2.计算a.bgini指标,决策树归纳会用哪个属性?这个答案没问题
3.从图4-13可以看出熵和gini指标在[
00.5]都是单调递增,而[
0.51]之间单调递减有没有可能信息增益和gini指标增益支持不同的属性?解释你的理由YeseventhoughthesemeasureshavesimilarrangeandmonotonousbehaviortheirrespectivegainsΔwhicharescaleddifferencesofthemeasuresdonotnecessarilybehaveinthesamewayasillustratedbytheresultsinpartsaandb.贝叶斯分类
1.PA=1|−=2/5=
0.4PB=1|−=2/5=
0.4PC=1|−=1PA=0|−=3/5=
0.6PB=0|−...。