《机器学习》周志华第二章课后习题
《机器学习》周志华第二章课后习题2.1组合数,500选150的平方2.2“假设学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时随即预测)10折交叉验证正确率为50%留一法为0,解释如下:两种情况:训练集中45正,44反,测试集1个反,预测为正;训练集中45反,44正,测试机1个正,预测为反。2.3 若学习器A的 F1 值比学习器B 高,试分析析A的 BEP 值是否也比 B
《机器学习》周志华第二章课后习题
较多了参考韩大佬的答案和南瓜书,感谢!
2.1
组合数,500选150的平方
2.2
“假设学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时随即预测)
10折交叉验证正确率为50%
留一法为0,解释如下:
两种情况:
- 训练集中45正,44反,测试集1个反,预测为正;
- 训练集中45反,44正,测试机1个正,预测为反。
2.3 若学习器A的 F1 值比学习器B 高,试分析析A的 BEP 值是否也比 B高.
不一定,二者关联度不大。F1是由P和R确定的,此时的阈值应该是确定的,但是P和R却不一定相等,只有P和R相等时才有BEP这个概念。
2.4 试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。
真正例率TPR= TP / (TP + FN),实际正例中的真正例的概率。
假正例率 FPR = FP / (FP + TN),实际反例中被预测为正例的概率。
查准率 P = TP / (TP + FP),预测正例中的真正例的概率。
查全率 R = TP / (TP + FN),查全率等于真正例率,即实际正例中被预测为正例的概率。
查全率越大,查准率往往越低;查准率越高,查全率往往越低,从P-R图中可以看出。
2.5 试证明式(2.22).
借鉴南瓜书上证明2.20和2.21公式推导如下:
2.6 试述错误率与 ROC 曲线的联系.
错误率是在阈值确定的情况下得出的,ROC曲线则是在阈值变化时,计算出“真正例率”和“假正例率”然后绘制出的。课本上P33原文:“我们根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横、纵坐标作图’就得到了 “ROC 曲线”……。 ROC 曲线的纵轴是"真正例率” (True Positive Rate ,简称 TPR) ,横轴是"假正例率" (False Positive
Rate ,简称 FPR) 。
2.7 试证明任意一条 ROC 曲线都有一条代价曲线与之对应,反之亦然.
课本P36页由详细说明,ROC曲线上的每一个点对应代价平面上的一条线段,对这些线段取下界,即可得到唯一的一条代价曲线。
还有一个问题,是否每一条代价曲线,都有唯一的一条ROC曲线与之对应?如果样本数有限,那么可能会出现不同的ROC曲线对应同一条代价曲线,当样本数趋向于无穷时,就是一一对应的了。
2.8
我在网上看到很多文章中,Min-max规范化是 (X - Xmin) / (Xmax - Xmin),将结果映射到[0,1]之间,叫做归一化,应该就是把这个式子里的X’max设置为1,X’min设置为0,所以规范化后的取值范围是[X’min,X’max];而z-score规范化被叫做标准化,最后得到的结果是,对每个属性/每列来说所有数据都聚集在0附近,方差值为1。
Min-max 规范化
优点:
- 计算相对简单一点。
- 当新样本进来时,只有在新样本大于原最大值或者小于原最小值时,才需要重新计算规范化之后的值。
缺点:容易受高杠杆点和离群点影响。
z-score 规范化
优点: 对异常值敏感低。
缺点:
3. 计算更负责。
4. 每次新样本进来都需要重新计算规范化。
Min−max规范化方法简单,而且保证规范化后所有元素都是正的,每当有新的元素进来,只有在该元素大于最大值或者小于最小值时才要重新计算全部元素。但是若存在一个极大(小)的元素,会导致其他元素变的非常小(大)。 z−score标准化对个别极端元素不敏感,且把所有元素分布在0的周围,一般情况下元素越多,0周围区间会分布大部分的元素,每当有新的元素进来,都要重新计算方差与均值。
###2.9试述 χ2 检验过程.(卡方检验)
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
注意:卡方检验针对分类变量。
百度百科 卡方检验
2.10 试述在Friedman 检验中使用式(2.34) (2.35) 的区别.
P42页左下方小字中这样写道:原始检验要求k较大(例如 > 30),若k较小则倾向于认为无显著区别。
看到有一种说法是:公式2-34中的变量服从自由度为k - 1的卡方分布,只考虑了不同算法的影响,而公式2-35中的变量服从自由度为(k - 1,(k - 1)(N - 1))的F分布,既考虑了不同算法的影响,也考虑了不同数据集的影响。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)