一、没有免费午餐定理
1995年,d.h.wolpert等人提出没有免费午餐定理(no free lunch theorem)。该定理具体描述为:任何一个预测函数,如果在一些训练样本上表现好,那么必然在另一些训练样本上表现不好,如果不对数据在特征空间的先验分布有一定假设,那么表现好与表现不好的情况一样多。因此,没有一个机器学习算法在任何情况下表现均优。
二、未假设先验分布的预测
假设一台计算机只有两个存储单元,并假设计算机的存储单元不是属于第一类就是属于第二类。当已知一个存储单元属于第一类,预测另一个存储单元的类别。该预测问题可能包含两种情况:
(1)第一个和第二个存储单元均属于第一类。
(2)第一个存储单元属于第一类,第二个存储单元属于第二类。
若没有假设两种情况的先验概率分布(即默认两种情况先验概率相同),则两种情况出现的概率相同。此时,无论预测第二个存储单元属于哪种类别,正确或错误预测的概率均为50%。
当假设计算机的存储单元为三个或三个以上时,正确或错误预测每个存储单元的概率均为50%(如图一所示,图一中圆圈代表第一类,叉代表第二类)。
图一,图片来源:中国慕课大学《机器学习概论》 因此,即使增加已知存储单元类别的个数,正确或错误预测每个未知存储单元的概率也为50%。
图片来源:中国慕课大学《机器学习概论》 综上,可得到推论:无论计算机的存储单元有多少,无论已知多少个类别信息,如果默认各种情况先验概率相同,正确预测的概率均为50%。即默认各种情况先验概率相同的情况下,所有的机器学习算法与随机猜测的结果相同。 三、假设先验分布的预测 如图二所示,如果预测图中问号处的图形,则多数人可能预测偏上的问号是圈,偏下的问号是叉。该预测与所有流行的机器学习算法做出的预测相同。
图二,图片来源:中国慕课大学《机器学习概论》 机器学习算法偏向做出上述预测的原因是开发人员在设计机器学习算法时假设:在特征空间上距离接近的样本属于同一类别的概率更高。基于此假设,图二中问号处图形的各种情况先验概率不同。偏上的问号是圆圈的先验概率高,是叉的先验概率低;偏下的问号是叉的先验概率高,是圆圈的先验概率低。
四、先验假设是否准确的讨论 先验假设不一定准确,下文举例说明。
例一:假设明天太阳会照常升起。该假设基于人们数千次或数万次看见太阳升起,基于过去的书籍中对太阳升起的多次记录,基于如万有引力的论证,并通过类比推广得出。此种方式得出的假设不能保证基于该假设的预测结果准确率达到100%。
例二:图二的预测中,如果圆圈代表花朵,叉代表蜜蜂,那么偏上的问号处可能是蜜蜂,该蜜蜂落入花丛中,并通知其他蜜蜂到此地采蜜。
图片来源:中国慕课大学《机器学习概论》
宏光半导体完成配售14,346,000股
美国人不可能绕过5G做6G 6G作用就是解决5G痛点
小米6正面谍照曝光:黑边消失 型号为MI6
基于微处理器LPC2214和GPS接收器实现车载导航终端的设计
国产首款USB3.0HUB芯片成功进入商用可兼容RTS5411、VL817、GL3510
机器学习相关介绍:没有免费午餐定理
非接触式激光超声图像公布 将极大地扩大临床环境中医生的使用范围
中国比克宣布履行动力电池供货合同
小米MIX Alpha 2代或将采用新刘海相机方案
气动调节阀泄露该怎么办,用什么方法进行处理
西门子SMART PLC的控制回路、PLC程序和上位机程序设计
万兆交换机与千兆交换机的区别
中科大熊宇杰&龙冉Nature子刊:等离子体诱导人工光合作用
华为P10曝光,配置强大,狙击iPhone8
生而独立 贯穿未来|紫光展锐2022智能穿戴沙龙成功举办
戴尔推出Latitude7285首款无线充电二合一变形本,就是多加一个底座?
2021世界传感器大会阵容强大:1场主旨报告+10个分场活动
可管理的宽带企业内部无线网解决方案解析
中软国际亮相2023智用大会,加速大模型赋能行业应用
一文解析分布式电源并网的谐波问题