还剩10页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
什么是机器学习范文什么是机器学习?导读人工智能的快速发展,带动了相关技术的繁荣近些年,国内外的科技公司对机器学习人才都有大量需求怎样入行机器学习?本文带你从0开始学起01机器学习的背景当提及机器学习时,我们的脑海里一般会浮现出这样一幅画面一个拥有类似人类智能的机器人正在像人类一样尝试理解一件事情这样的画面让人觉得是遥不可及的科幻世界但实际上,机器学习与人类的生产生活已经密不可分了早在20世纪90年代,一个非常成功的机器学习案例已经使数亿人受益今天为人所熟知的垃圾信息过滤该案例成功后,出现了诸多效仿者,并且在现代社会已经有十分广泛的应用商家在推荐系统与___计算方面使用机器学习,前者会在海量的商品中恰如其分地选中你所喜欢的一款,让你欣然完成交易,而后者因其精确的______率计算,为企业创造了显著的收益;在金融领域,机器学习参与了反欺诈、反洗钱风控等常人难以胜任的工作,其在时间序列预测方面也有自己的一席之地;智能问答机器人以及___接线员已经大幅减少了企业用人成本;在制造业中,如何精益化生产、如何轻而易举地发现残次品等,皆有其用武之地我们已深处于一个无时无刻不接触机器学习的时代02机器学习的定义如果从更精细的角度去描述机器学习,那么首先要给出机器学习历史上两个著名的定义机器学习___chinelearning一般被定义为一个系统自我改进的过程从字面意义上说,机器指计算机,学习是这个自我改进的过程最初机器学习这个名字由ArthurSamuel提出,他给了机器学习一个非正式的定义ArthurSamuel的机器学习定义机器学习是一个这样的领域计算机在程序员并不对其进行显式编程的情况下进行自我学习的能力具体来讲,机器学习是一门针对算法与统计模型的学科,主要是利用计算机系统高效地执行特殊任务,该任务没有显式的指令,而是依靠模型和推断等机器学习算___建立一个关于样本数据的数学模型,这些样本数据通常被称为“训练集”trainingdata这样做的目的是在执行任务时不去进行显式的预测或决策,这同时也表明了机器学习不是一个已确定好的规则和流程机器学习算法可以被用于邮件过滤、网络入侵检测以及计算机视觉等机器学习与利用计算机进行预测的计算数学比较接近上面的定义稍有一些佶屈聱牙,但大体上是说“机器是怎么判断的”这一点不是由人显式定义的,而是计算机自己获得的这里有一个更___程化的定义,即TomM.Mitchell为机器学习领域研究的算法特征提出的一个广为引用且更加正式的定义TomM.Mitchell的机器学习定义机器学习这门学科所___的问题是计算机程序如何随着经验积累自动提高性能;如果针对某类任务T,一个计算机程序的用P衡量的性能可根据经验E我完善,那么我们称这个计算机程序在从经验E中学习,针对某类任务T它的性能可用P来衡量《统计学习基础》一书中写道许多领域都产生了大量的数据,统计学家的工作就是让所有这些数据变得有意义——提取重要的模式和趋势,理解“数据在说什么”我们称之为从数据中学习综上所述,机器学习模仿人类学习的过程,不能对机器置入显式的判断规则,而是由机器在某种任务场景(基于某种经验)和某种评判标准下不断提升自己表现的过程举个例子,当你使用___时,你的垃圾邮件过滤系统可以预先从带有人为标记的垃圾邮件以及带有人为标记的正常邮件中学习到垃圾邮件到底会有怎样的特征表现这些用以训练系统的数据集被称为训练集,其中每一个样本被称作训练样本在这个案例中,任务T是对新来的邮件打上好或者不好的标签;经验E是上述训练集;而性能P需要被定义,例如你可以用预测的正确比例去定义模型表现的好坏,该指标被称作准确率(auracy)且广泛应用于机器学习的分类任务中03机器学习的任务类型如上所述,机器学习要应对很多应用场景,并包含面对各种数据的经验,而机器学习系统也包含不同的类型,所以我们有必要在不同层面上对它们进行较为粗略的区分,这些“不同层面”可以是是否在人类的监督下进行学习;是否增量学习或者在数据流上学习;是否仅仅将新数据点与老数据点进行比较,抑或建立一个预测模型,类似于科学家通常所做的基于数据或基于模型这三个层面并不会互相排斥,相反,一个机器学习任务往往是这三种区分的组合例如,一个先进的深度学习系统在一个实时数据流上学习如何区分垃圾邮件,这显然是一个基于模型的在线监督学习系统根据是否在人类的监督下进行学习这个问题,机器学习任务区分如下监督学习监督学习算法依赖具有标签的训练数据来建立数学模型例如,如果任务是鉴定___是否包含某种实体,那么训练集的___中就应该同时存在包含与不包含该实体的___,同时,每张___需标注是否包含该实体的标签根据标签的数值特征连续、离散,监督学习又可以分为分类问题与回归问题半监督学习在某些情况下,并不是所有的输入数据集都被有效标注了,即训练集中包含已标注的样本和未标注的样本实际上未标注样本与已标注样本拥有同样的分布,在训练时若能利用这一点则会很有帮助无监督学习无监督学习算法完全利用不带标签的训练数据去训练一个模型无监督学习用于探索数据的分布,例如将点聚类等无监督学习可用于发现数据的潜在模式,并将数据按组归类,还可用于特征学习和数据降维等强化学习在动态环境中以正或负强化的形式给出反馈,并用于自动驾驶车辆,或者学习与人类对手玩游戏等主动学习在预算访问有限等情况下,算法通过交互式的形式来询问用户和其他信息源,以更新和预测新的数据点所期望的输出元学习元学习是要“学会如何学习”,即利用以往的知识经验来指导新任务的学习相应地,根据是否在实时数据流上学习这个问题,机器学习任务区分如下离线学习在离线学习中,系统不能在增量的数据上进行学习,只能在更新的全部数据集上重新学习,这必然会增加更多的时间成本和计算资源一旦模型完成学习便应立即部署到系统中运行,且不再继续学习如果用户想对新来的数据进行学习,那么必须将新数据和旧数据组合,重新训练模型,停止旧系统并将其替换成新系统在线学习在线学习中,用户可以增量地训练模型,将数据一次一次地喂入模型,每一次___的数据组被称作mini-batch,每一次新的学习都快速而轻便在是否对比旧数据点上,机器学习任务区分如下:基于样本的学习基于模型的学习04构建机器学习应用的步骤机器学习有很多任务场景,为了简要说明机器学习的大体应用方法与步骤,这里以较为常见的手写识别任务为例根据TomM.Mitchell对机器学习的定义,手写识别任务的T、P、E分别为任务T训练出高准确率的手写识别模型;性能P分类的准确率、召回率等;训练经验E带标签的手写___首先介绍一系列关键概念特征特征是事物某些突出性质的表现,即区分事物的关键,当需要对事物进行分类或者识别时,我们会根据事物的特征去区分,并依次建立一个模型对于单个事物而言,可能有多个特征存在而对于一组事物,某个特征项会有不同取值分布标签对于特征而言,标签表示这个事物是什么,例如通过某个人的言行举止、穿着打扮可以大体判定其具有某种性格或者某种社会地位这种性格或者社会地位就是标签机器学习的任务就是针对新输入的数据,根据其特征来确定其标签数据切分机器学习有训练的过程,在这个过程中应用了训练经验E,而训练经验E则原始数据一般来说,原始数据分为三个部分,即训练集、验证集和测试集,其分配比例分别为70%、20%和10%训练集用以训练模型,验证集用以调优模型参数,而在经过训练集和验证集的训练之后,___者获得了一系列模型,此时测试集用以选择模型在数据切分时,一定要注意抽样方法的选择,务必保证三个数据集的数据分布大体一致交叉验证与网格调参大多数时候,应考虑数据切分产生的数据分布不均的影响在训练模型时往往用交叉验证的方式,同时会使用网格调参去寻找最优参数交叉验证指将数据分为K份,进行K次训练,每次训练抽取其中的K-1份数据作为训练集,其余一份作为验证集,训练时通常使用网格调参,于是便可以得到K个模型在K个模型中,选择在验证集上表现最佳的一个模型即可网格调参是指对于需要调整的参数,每个参数设置一组预设值每组预设值根据不同的取值组合成繁多的取值组合如同设置一个高维的网络,每个组合都是其中的一个交叉点,在每个组合数据上验证模型的性能,并获得最佳的组合模型评价简而言之就是评价模型的性能,如前所述,需要通过模型评价选择出最优秀的模型对于分类和回归问题来说,存在不同的模型评价指标那么对于一个手写识别任务来说,机器学习的应用步骤如下所述数据预处理手写数据的___就是其数据特征,0…,9的数字为其标签首先需要将___转换为数值特征,此步骤称为数据预处理手写识别___为灰度图且只有一个通道,那么每张___就可以抽选特征成为一个数组,例如将___转换为180×180维的由[0,1]组成的一组数据,然后再让模型去学习数据切分将数据按照7/2/1的比例切分成训练集、验证集和测试集此处需要注意的是,为了不让数据的分布产生差别,三个数据集中的每一个都包含所有的标签类别,需要采用分层抽样技术选择模型一组泛函对于分类来说,有很多模型类型可以使用每种模型代表一组泛函,学习的目的就是搜索泛函中性能优异的函数针对分类问题,可用的函数族有很多,例如逻辑回归、决策树、支持向量机以及神经网络等选择目标函数根据所选模型的不同,应选择相应的目标函数以及优化方法合适的目标函数与优化方法搜索出的模型参数可以使模型达到最优的性能例如,对于逻辑回归,可用的目标函数为交叉熵;对于决策树,在___时目标函数为熵或者基尼系数;而对于AdaBoost模型,则选取对数损失函数根据目标函数选择相应的优化方法最常用的优化方法是梯度下降法、牛顿法等需要目标函数有较好的性质才能找到其最优解根据评价函数计算性能,并优化模型参数通过选取合适的模型-目标函数-优化方法,模型在这个流程中学习到了参数此时,模型已经可以执行预测工作了解模型性能对于分类问题有很多模型评价指标,例如查准率、查全率、F1值、AUC值、PR曲线等若计算得出的模型性能并非十分优秀,那么就要重新进行参数搜索最终获得模型模板内容仅供参考。