机器学习算法:监督学习和强化学习

根据机器学习所需完成任务的性质,机器学习算法可分类为监督学习和强化学习。
一、监督学习
监督学习的具体案例包括:垃圾邮件识别、人脸识别等。
垃圾邮件识别需使计算机“学会”识别某个邮件是否为垃圾邮件。为实现计算机识别垃圾邮件,开发人员需搜集较多的垃圾邮件和非垃圾邮件,并“告诉”计算机各个邮件分属于垃圾邮件或非垃圾邮件。
人脸识别需使计算机“学会”通过人脸识别不同人,为实现计算机人脸识别,开发人员需搜集较多的人脸图片,并“告诉”计算机各个人脸图片分别代表哪个人。
上述的邮件和人脸图片可被称为训练数据,“告诉”计算机邮件和人脸图片的归类被称为打标签(labeling for training data)。
为数据打标签需要较大的人力成本,例如:现代人脸识别系统需要数千万张带有标签的人脸图片,一般为数千万张人脸图片打标签需要数万小时的时间。因此,随着机器学习的发展,为数据打标签成为了一个独特的产业。
综上,监督学习(supervised learning)可定义为:同时向计算机输入训练数据和对应标签的机器学习。
二、强化学习
强化学习的具体案例包括:计算机下棋、自动驾驶等。
在计算机下棋、自动驾驶中,计算机不是通过输入训练数据和对应标签进行学习,而是通过计算机与环境互动学习。具体而言,计算机产生行为,同时获得这个行为的结果。所使用的机器学习算法需定义每个行为的收益函数(reward function),以使计算机获得每个行为的结果(收益值),即计算机因行为获得奖励(收益值为正)或因行为受到惩罚(收益值为负)。
例如:在计算机下棋的算法中,计算机胜利获得奖励,计算机失败受到惩罚;在自动驾驶的算法中,顺利到达目的地,计算机获得奖励,中途出事故,计算机受到惩罚。
同时,强化学习的算法需设计相应的算法,使得计算机可以自动改变行为模式以将收益函数最大化。
综上,强化学习(reinforcement learning)可被定义为计算机通过与环境的互动逐渐强化其行为模式。
三、监督学习和强化学习可结合使用
监督学习和强化学习的应用不是完全分割的,在一个机器学习算法中可以同时使用机器学习和强化学习。例如:围棋机器学习算法alphago(根据百度百科:该围棋算法与围棋世界冠军、职业九段棋手李世石进行围棋比赛,以4:1的总比分获胜;该算法在中国棋类网站与中日韩数十位围棋高手进行比赛,连续60局无败绩;该围棋算法与排名世界第一的世界围棋冠军柯洁对战,以3:0的总比分获胜。围棋界公认该算法的棋力已超过人类职业围棋顶尖水平)
不是单独使用强化学习建立机器学习算法,而是首先通过网络中围棋高手的对局进行监督学习获得了一个较好的初始围棋程序,再对该初始围棋程序进行强化学习。


印度首颗CPU诞生 6大系列覆盖面全相当具规模
新型土壤肥料养分速测仪的功能特点是什么
打造具有不亚于特斯拉科技魅力的产品 才是零跑的更大梦想
云服务器的数据安全风险以及其价值评估
凌力尔特推出高准确度温度传感器LTC2996
机器学习算法:监督学习和强化学习
SvelteKit 1.0正式发布
禾多科技荣获2022年度AI场景落地最具影响力创新企业奖
你真的了解超级电容吗?漏电流的概念
VR/AR/MR+医疗,助力医学研究更进一步
小米新款云米互联网洗烘一体机Neo2正式上市
基于SDR技术的无线电设计方法
盘点2022年连接器行业收购大事
中国的可再生能源如何告别“单打独斗”?
本土企业发力进入国际汽车厂商配套体系
OPPO Find X2 Pro或将首发OPPO的屏下摄像头技术
LED封装制造流程及相关注意事项
新型罗克韦尔自动化光电传感器介绍
中芯国际计划投资517亿元人民币在天津建立半导体加工厂
hifi音响和普通音响有什么区别 hifi音响怎么连接电视