还剩7页未读,继续阅读
文本内容:
知识点一数据仓库
1.数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上
2.数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造
3.数据仓库围绕主题组织
4.数据仓库基于历史数据提供消息、,是汇总的
5.数据仓库用称作数据立方体的多维数据结构建模,每一个维对应于模式中的一个或者一组属性,每一个单元存放某种聚集的度量值
6.数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据
7.提供提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理,允许在不同的抽象层提供数据,这种操作适合不同的用户角度
8.OLAP例子包括下钻和上卷,允许用户在不同的汇总级别上观察数据
9.多维数据挖掘又叫做探索式多维数据挖掘OLAP风格在多维空间进行数据挖掘,允许在各种粒度进行多维组合探查,因此更有可能代表知识的有趣模式知识点二可以挖掘什么数据
1.大量的数据挖掘功能,包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析
2.数据挖掘功能用于指定数据挖掘任务发现的模式,分为描述性和预测性
3.描述性挖掘任务刻画目标数据中数据的一般性质
4.预测性挖掘任务在当前数据上进行归纳,以便做出预测
5.数据可以与类或概念相关联
6.用汇总、简洁、精确的表达描述类和概念,称为类/概念描述
7.描述的方法有数据特征化(针对目标类)、数据区分(针对对比类)、数据特征化和区分
8.数据特征化用来查询用户指定的数据,上卷操作用来执行用户控制的、沿着指定维的数据汇总面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必与用户交互形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表结果描述可以用广义关系或者规则(也叫特征规则)提供
9.用规则表示的区分描述叫做区分规则
10.数据频繁出现的模式叫做频繁模式,类型包括频繁项集、频繁子项集(又叫频繁序列)、频繁子结构
11.频繁项集一般指频繁地在事务数据中一起出现的商品的集合
12.频繁子序列就是一个频繁序列模式13,子结构涉及不同的结构,可以与项集和子项集一起出现
14.挖掘频繁模式导致发现数据中有趣的关联和相关性
15.包含单个谓词的关联规则称作单维关联规则多个谓词的关联规则叫做多维关联规则
16.如果不能同时满足最小支持度阈值和最小置信度阈值是无趣的关联规则
17.频繁模式挖掘的基础是频繁项集挖掘
18.分类找出描述和区分数据类或概念的模型或者函数来预测类标号未知对象的类标号
19.导出模型是基于训练数据集的分析,预测类标号未知对象的类标号形式有分类规则、决策树、数学公式或者神经网络
20.决策树类似流程图的树结构,每一个结点代表一个属性上的测试,每一个分支代表测试的一个结果,树叶代表类或者类分布
21.分类时,神经网络类似于神经处理单元,单元之间加权连接构造分类模型的方法还有朴素贝叶斯分类、支持向量机、K最近邻分类
22.分类预测类别(离散的、无序的)标号,回归建立连续值函数模型来预测缺失的、难以获得的数据数据值
23.术语预测指数值预测和类标号预测
24.回归也包含基于可用数据的分布趋势识别
25.相关分析在分类和回归之前进行,试图识别与分类和回归过程显著相关的属性
26.聚类分析数据对象,产生数据组群的类标号,原则是最大类内相似性、最小化类间相似性所形成的每一个簇看做一个对象集,可以导出规则聚类便于分类法的形成,将观测组织成分层结构,把类似的事件组织在一起
27.离群点指与数据的一般行为或模型不一致的数据对象,视为噪声或者异常舍弃离群点数据分析也叫离群点分析或异常挖掘,用统计监测或者距离度量、基于密度方法识别
28.有趣的模式指易于被人理解、在某种确信度上对于新的或检验数据是有效的、潜在有用的、新颖的模式有趣的模式代表知识
29.模式兴趣的度量包括客观度量和反映特特定用户需要和兴趣的主观度量客观度量基于所发现模式的结构和关于它们的统计量,比如规则的支持度、规则的置信度、分类规则的准确率与覆盖率主观度量基于用户对数据的信念,比如是出乎意料、提供重要信息(也叫可行动的)
30.根据用户提供的约束和兴趣度度量对搜索聚焦,对某些任务而言能够保证算法的完全性
31.模式兴趣度量根据模式的兴趣度对所发现的模式进行排位,可以通过减去模式空间中不满足预先设定的兴趣度约束的子集来指导和约束发现过程知识点三数据对象与数据属性
1.数据集由数据对象组成,一个对象代表一个实体
2.数据对象用属性描述,又叫样本、实例、数据点或对象存放在数据库中的数据对象叫做数据元组
3.属性是一个数据字段,表示数据对象的一个特征,也叫维、特征、变量用来描述一个给定对象的一组属性叫做属性向量(或者特征向量)涉及一个属性的叫做单变量、两个属性的叫做双变量
4.一个属性的类型由该属性可能具有的值的集合决定,分为标称的、二元的、序数的、数值的5•标称属性的值是一些符号或者事物的名称,每一个值代表某种类别、编码或者状态,被看做是分类或者枚举的,不必具有有意义的序
6.二元属性是一种标称属性,又叫布尔属性,只有两个状态或者1,代表不出现,1代表出现如果两种状态具体同等价值并且携带相同的权重,那二元属性是对称的
7.序数属性可能的值之间具有有意义的序或秩评定,相继之间的差是未知的,通常用于等级评定调查
8.数值属性用整数或者实数值表示,可以是区间标度或者比率标度的区间标度属性用相同的单位尺度度量,有序,可以为负、零、正,允许比较和度量评估值之间的值比率标度是具有固定零点的数值属性,可以说一个数是另一个数的倍数
9.机器学习领域开发的分类算法通常把属性分为离散的、连续的离散属性具有有限或者无限可数个值,可以用或者不用整数表示连续属性值一般用浮点变量表示,实数值用有限位数字表示知识点四数据的基本描述统计
1.中心趋势度量数据分布的中部或者中心位置,包括均值、中位数、众数、中列数
2.数据的分散度量包括极差、四分位数、四分位数极差、五数概括和和盒图、方差和标准差
3.图形可视化审视数据,包括条图、饼图、线图
4.为了抵消少数极端值的影响,使用截尾均值来高低极端值后的均值
5.具有一个、两个、三个众数的数据集合叫做单峰、双峰、三峰
6.在具有完全对称的数据分布的单峰频率曲线图中,均值、中位数和众数都是相同的中心值
7.分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合
8.识别可疑的离群点挑选落在第三个四分位数之上或者第一个四分位数之下至少
1.5*IQR(四分数极差)处的值
9.五数概括包括中位值、四分位数Q
1、四分位数Q
3、最小和最大观测值组成盒图知识点五度量数据的相似性和相异性
1.簇是数据对象的集合,使得每一个簇中的元素互相相似,与其他簇中的对象相异
2.两种数据结构数据矩阵(存放数据对象)和相异性矩阵(存放数据对象对的相异性值)
3.邻近性指相异性和相似性
4.数据矩阵也叫二模矩阵,相异矩阵只包含一种实体,称为单模矩阵
5.欧几里得距离和曼哈顿距离满足非负性、同一性、对称性、三角不等式,满足条件的测度叫做度量
6.上确界距离是两个对象的最大值差知识点六数据预处理概述
1.数据质量包括准备性、完整性、一致性、时效性、可信性、可解释性质量基于数据的应用目的
2.数据预处理的主要任务数据清理、数据集成、数据归约、数据变换
3.数据清理是为了填补缺失的值、光滑噪声数据、识别和删除离群点、纠正数据的不一致性这是一个两步的迭代的过程,分为偏差检测和数据变换
4.数据集成涉及集成多个文件、数据库、数据立方体,整合成一致的数据存储语义异种性的解决、元数据、相关分析、元组重复检测和数据冲突检测都有助于数据的集成
5.数据归约得到数据集的简化表示,使信息内容的损失最小化策略包括维归约和数值归约、数据压缩维归约中减少所考虑的随机变量或者维的个数,方法包括小波变换、主成分分析、属性子集选择和属性创建数值归约归约中,使用参数模型和非参数模型,用较小的表示取代数据数据压缩指按照比例映射到一个较小的区间不损失任何信息代表是无损的
6.属性的原始值被区间或者叫高层的概念所取代可以采用离散化和概念分层产生的方法,使得数据在多个抽象层上进行数据变换包括规范化、数据离散化、概念分层产生
7.冗余数据的删除既是数据清理也是数据归约
8.填补缺失值的方法有忽略元组、人工填写、使用一个全局变量、使用属性的中心度量(中位数或者均值)、使用给定元组属性的同一类的所有样本的属性均值或者中位数、使用最可能的值(使用回归或者贝叶斯推理得到)
9.噪声是被测量的变量的随机误差或者方差
10.识别噪声的方法有基本统计描述技术和数据可视化方法数据光滑技术有分箱、回归、离群点分析
12.分箱通过考察数据的近邻来光滑有序数据值,这些有序的值被分配到一些桶或箱中
13.分箱考察近邻的值,它是局部光滑
14.对于用箱均值光滑,所有值都被替换成均值;用箱中位数光滑,每一个数都替换成中位数;用箱边界光滑,每一个数字都替换成最近的边界值,宽度越大代表光滑效果越好
15.数据变换指数据被变换或者统一成适合挖掘的形式,策略包括光滑、属性构造、聚集、离散化、由标称数据产生概念分层
16.光滑指去掉数据中的噪声,技术包括分箱、回归、聚类;属性构造通过已知属性产生新的属性添加到属性集中;聚类对数据的汇总和聚集;概念分层将属性泛化到较高的概念层
17.离散化技术根据如何离散化加以分类,比如自顶向下的分类或者离散化使用类信息叫做监督的离散化
18.离散化和概念分层也是数据归约的形式,原始数据被曲建或者标签取代
19.用较小的单位表示属性将导致该属性有较大值域,因此倾向于使这样的属性具有较大的影响或者较高的权重
20.规范化或标准化的目的是避免对度量单位选择的依赖性,规范化数据试图赋予所有属性相等的权重方法有最小-最大规范化、z分数规范化和按小数定标规范化
21.最小-最大规范化(v-minA)/(maxA-minA)(new_maxA-new_minA)+new_minA z分数规范化(v-均值)/方差按小数定标规范化全部除以一个数字
22.分箱是一种基于指定的箱个数的自顶向下的分裂技术分箱不使用类信息,是一种非监督的离散化技术,对用户指定的箱个数敏感,容易受离群点的影响
23.直方图是一种非监督的离散化方法,将属性A的值划分为不相交的区间,叫做桶或者箱直方图分析算法可以递归地用于每一个分区,自动地产生多级概念分层,直到达到一个预先设定的概念层数,过程终止对每一层使用最小区间长度来控制递归
24.聚类将属性A划分为簇或组来离散化属性Ao采用自顶向下的划分策略或组自底向上的合并策略产生概念分层,其中每一个簇形成的概念分层的一个结点
25.决策树采用自顶向下的方式,是监督的离散化方法,使用了类标号
26.相关性度量采用自底向上的策略,递归地找出最邻近的区间,合并,形成大区间使用类标号,是监督的相对类频率在一个区间应该完全一致,如果两个邻近的区间具有非常大的相似性就可以合并他们
27.ChiMerge把数值属性A的每一个不同看做是一个区间,对每一个相邻区间进行检验,具有最小卡方检验值的表明有相似的类分布合并过程递归地进行,直至满足定义的条件为止
28.标称数据有多个值,无序概念分层可以用来把数据变换到多个粒度层四种数据概念分层的方法山用户或专家在模式级显示地说明属性的部分序、通过显示数据分组说明分层结构的一部分、说明属性集但不说明它们的偏序、只说明部分属性集知识七数据仓库与联机分析处理
1.数据仓库允许将各种应用系统集成在一起,为统一的历史数据分析提供坚持的平台,对信息处理提供支持
2.数据仓库是一个面向主题的(排除决策无用的数据)、集成的(来源于多个数据源)、时变的(隐式或显式地包含时间元素)、非易失的(物理地分离存放数据)数据集合,支持管理者的决策过程
3.数据仓库不需要事务处理、恢复、并发控制机制,只需要数据初始化装入和数据访问两个数据访问操作
4.数据仓库的构建过程需要数据集成、数据清理、数据统一
5.从异构数据库集成看,组织由多个异构的、自治的和分布的数据源维护大型数据库
6.传统的数据库集成建立一个包装程序和一个集成程序使用元数据字典对查询进行转换、将他转换成相应异构点上的查询然后,将这些查询映射和发送到局部查询处理器由不同的站点返回不一样的结果被集成为全局回答这种查询驱动的方法要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源
7.数据仓库使用更新驱动的方法,将多个数据源的信息预先集成存在数据仓库中,供直接查询和分析
8.联机操作数据库系统的主要任务是执行联机事务和查询处理数据仓库用不同格式组织和提供数据满足不同用户的需求,称为联机分析处理数据仓库与操作数据库的区别用户和系统的面向性、数据内容、数据库设计、视图、访问模式用户和系统的面向性联机事务处理面向顾客,数据仓库面向市场的数据内容联机事务处理管理当前数据,数据仓库管理大量的历史数据数据库设计前者是ER,后者是星形或者雪花模型和面向主题的视图前者主要关注一个企业或者部门内部的当前数据,后者常常跨越数据库模式的多个版本,处理不同单位的数据,数据量大,存放在多个介质上访问模式前者由短的原子事务组成,需要并发、恢复机制来保证一致性和事务的鲁棒性后者只需要访问操作其他区别包括数据库大小、操作频繁程度、性能度量等
9.分离数据库的原因有三个第一为了提高两个系统的性能一方面操作系统是为一致的任何和负载设计,数据仓库的查询非常复杂,涉及大量的数据,需要基于多维视图的数据组织、存取方法和实现方法第二是访问模式的不同第三是两者的功能和数据不同
10.数据仓库是三层体系,底层是仓库数据服务器,是一个关系数据库数据提取使用信关的应用程序这一层包括元数据库,存放关于数据仓库和它的内容的信息中间是OLAP服务器顶层是前端客户层,包括查询和报告的工具、分析工具/数据挖掘工具
11.从结构看,有三种数据仓库模型仓库企业、数据集市、虚拟仓库仓库企业搜集了关于主题的所有信息,跨越整个企业数据集市数据范围的一个子集,对特定用户是有用的,局限于选定的主题,分为独立和依赖的两类独立的数据集市来自一个或者多个数据库系统或者外部信息提供者或者来自于一个特定部门或者地区局部产生的数据依赖数据集市直接来源于数据仓库虚拟仓库是操作数据上的视图的集合,只有一些可能的汇总视图被物化
12.自顶向下的企业仓库最大限度减少集成问题,推荐的是以递增、进化的方式实现数据仓库
13.数据仓库系统使用的工具有数据提取、变换、装入数据提取由多个异构的外部数据源搜集数据数据清理检测数据中的错误,可能时订正它们数据变换将数据由遗产或宿主格式转换成数据仓库格式装入排序、汇总、合并、计算视图、检查完整性、建立索引和划分刷新传播由数据源到数据仓库的更新数据清理和数据变换的目的是提高数据质量
14.元数据是关于数据的数据,定义数据仓库的数据,位于底层包含数据仓库结构的描述、用于汇总的算法、由操作环境到数据仓库的映射、关于系统性能的数据、商务元数据
15.多维数据模型有星形模式、雪花模式、事实星座模式星形模式一个大的中心表(包含大批数据不冗余),一组小的附属表(每维一个)雪花模式数据进一步分解到附加的表中事实星座模式多个事实表共享维表
16.数据立方体是一个函数,对数据立方体空间的每一个点进行求值通过对给定点的各维-值对聚焦数据计算该点的度量值
17.度量分为三类分布(sum)、代数(avg())、整体的(rank)知识点八频繁项集、闭项集和关联规则
1.强规则同时满足最小置信度阈值和最小支持度阈值
2.项的集合称为项集,包含K个项的项集叫做k项集
3.项集的出现频度是包含项集的事务数,称为频度、支持度计数或者计数
4.如果不存在真超项集Y使得Y与X在D中具有相同的支持度计数,该项集在数据集中是闭的,叫做闭频繁项集如果X是频繁的,并且不存在超项集Y使得Y包含X并且Y在D中是频繁的,那么X是极大频繁项集
5.Apriori算法:通过限制候选码产生频繁项集先验性质频繁项集的所有非空子集也一定是频繁的有两个关键操作是连接和剪枝提高效率的形式有基于散列的技术、事务压缩、划分、抽样、动态项集,即减少扫描事务数据库的次数、减少候选项集的数量、候选项支持度计算的简化FP-tree算法将代表频繁项集的数据库压缩到一棵频繁模式树,保留项集的关联信息把压缩后的数据库划分成一组条件数据库,每一个数据库关联一个频繁项或模式段,分别挖掘每一个条件数据库,显著地压缩被搜索的数据集的大小
6.反单调性指一个结合不能通过测试,它的所有超集也不能通过相同的测试
7.强规则不一定是有趣的
8.用相关性度量拓展支持度■置信度框架提升度计算lift(A,B)=P(AUB)/P(A)P(B)大于1表示一个出现另一个一定出现,等于工表示独立的计算卡方的值,卡方值二£(观测值-期望值)的平方/期望值如果卡方值大于1,实际值小于观测值表明是负相关的
9.四种评估模式度量全置信度、最大置信度、Kulczynski和余弦
10.全置信度称为最小置信度;Kulczynski是两个置信度的平均值;余弦看做是调和提升度量
11.提升度和卡方值识别事务数据集中的模式关联关系的能力差因为不是零不变度量零事务不包含任务考察项集的事务如果值不受零事务的影响,则度量是零不变的零不变性是一种度量大型数据库中的关联模式的重要性质
12.不平衡比评估规则蕴含式中两个项集A和B的不平衡程度知识点九分类
1.分类构造一个模型或者分类器来预测类标号;回归构造模型预测一个连续值函数或者有序值预测回归的两种主要类型是分类和回归
2.数据分类包含学习阶段(构造分类模型)和分类阶段(使用模型预测给定数据的类标号)第一阶段建立描述预先定义的数据类或概念集的分类器,其中分类算法通过分析或从训练集学习来构造分类器看做学习一个映射或者函数,可以预测给定元组的类标号,提供了数据的压缩表示,它是监督学习
3.训练集由数据库元组和与他们相关联的类标号组成
4.类标号属性是离散和无序的,是分类的(标称),因为每一个值充当一个类别或者类
5.构成训练数据集的元组称为训练元组,从所分析的数据库中随机地选取,也叫样本、实例、数据点或者对象
6.第二个阶段是分类阶段,评估分类器的预测准确率使用训练集来度量准确率是乐观的,因为它过分拟合该数据,应该使用由检验元组和它们相关联的类标号组成的检验集,独立于训练元组,指不使用它们构建分类器
7.分类器在给定检验集上的准确率是分类器正确分类的检验元组所占的百分比每一个检验元组的类标号与学习模型对该元组的类预测进行比较知识点十决策树归纳
1.决策树归纳指从有类标号的训练元组中学习决策树决策树类似于一个流程图的树结构,每一个结点代表一个属性上的测试,一个分支代表该测试的输出,每一个树叶结点存放一个类标号,最顶层是根结点
2.给定一个类标号未知的元组X,在决策树上测试该元组的属性值跟踪一条从根到叶结点的路径,该叶结点就存放着该元组的预测,决策树容易转换为分类规则
3.决策树分类不需要构造任何领域知识或参数设置,适合于探索式知识发现,处理高维数据
4.在决策树构建的时候,使用属性选择度量来选择将元组最好地划分为不同的类的属性
5.决策树算法又称迭代二分器,采用自顶向下的策略,从训练元组集和它们相关的类标号开始构建决策树随着构建,训练集逐渐被划分为较小的子集
6.决策树算法的策略
(1)用三个参数D,attribute_list和attribution_selection_method调用该算法该过程使用一种属性选择度量,比如信息增量、基尼指数,它决定了树是否为严格的二叉树Ps:D代表数据分区,是训练元组和它们相应类标号的完全集Attributejist描述元组属性的列表attribution_selection_method指定选择属性的启发式过程,用来选择可以按类最好地区分给定元组的属性
(2)树从单个结点N开始,N代表D中的训练元组
(3)如果D中的元组都为同一类,结点N变成树叶,并用类标记它否则,调用attribution_selection_method确定分类准则分类准则确定把D中的元组划分为个体类的最好方法,在结点N上对哪一个属性进行测试对于选择的测试,从结点N生长出哪些分支分类准则指定分裂属性,指出分裂点或者分裂子集,使得每个分支的属性尽量纯
(4)结点N用分裂准则作为结点的测试终止原则分区D中的所有元组都是一个类型的;没有剩余的属性可以继续划分;给定的分支没有元组复杂度为O(n*|D|*log(|D|)),|D|为D中的训练元组
7.属性选择度量是一种选择分裂准则,把给定类标号的元组的数据分区D最好地划分为单独的类的启发式方法它为给定训练元组的每一个属性提供了秩评定具有最好度量得分的属性选为分裂属性如果分裂属性是连续值或限于构造二叉树,一个分裂点或者一个分裂子集必须作为分裂准则的一部分返回为分区D构建的树结点用分类准则标记,从准则的每一个输出生长出分支,并且相应地划分元组主要有信息增量、基尼指数、增益率方法
8.选择具有最高信息增益的属性作为结点N的分裂属性,使结果分区中对元组分类所需要的信息量最小,并反映这些分区中的最小随机性和不纯性,使对一个对象分类所需要的期望测试数目最小,并确保找到一颗简单的树
9.基尼指数度量数据分区或者训练元组集D的不纯度
10.信息增益偏向于多值属性,增益率调整了这种偏倚,倾向于产生不平衡的划分,其中一个区比另一个区小得多基尼指数偏向于多值属性,当类数量很大的时候变得困难,倾向于导致相等大小的分区和纯度
11.基于最小描述长度(MDL)的属性选择度量具有最小偏向于多值属性的偏倚,需要最少二进制的树对树编码,对树异常编码基本思想为首选最简单的解多元划分基于属性的组合而不是单个属性,是一种属性构造,新属性基于旧属性创建的
12.决策树时间复杂度岁树的高度指数增加,倾向于较浅的树有大量的树叶和较高的错误率
13.在创建决策树时,由于噪声和离群点,许多分支反应的是训练数据中的异常剪枝处理过分拟合数据问题知识点十一贝叶斯分类方法
1.贝叶斯分类算法预测类隶属关系的概率,如给定一个的元组属于一个特定类的概率朴素贝叶斯算法假定一个属性值在给定类上的影响独立于其他属性的值,这一个假定称为条件独立性
2.遇到零概率值,假设训练元组集合很大,以致于对每一个计数加上1产生的变化可以忽略不计知识点十二神经网络
1.神经网络又叫连接者学习,是一组连接的输入/输出单元,每一个连接都与权重有关在学习阶段,通过调整权重使得它能够预测输入元组的正确标号类来学习
2.神经网络需要的时间很长,适合具有足够长的训练时间的应用需要大量的参数,主要是经验得到
3.神经网络的优点包括对噪声数据的高承受能力以及对未经训练的数据的分类能力,适合连续值的输入和输出
4.多层前馈由一个输入层,一个或者多个隐藏层,一个输出层组成每层由一些单元组成网络的输入对应于每一个训练元组的观测属性输入同时提供给构成输入层的单元,最后一个隐藏层的权重输出作为构成输出层的单元的输入输出层发布给定元组的网络预测
5.网络是前馈的,权重都不同送给输入单元,网络是全连接的,每一个单元都向下一层的每一个单元提供输入每一个输出单元都选择前一层单元输出的加权作为输入,应用一个非线性函数作用于加权输入
6.神经网络运用于分类和数值预测权重的初值可能影响结果的准确性,一旦网络经过训练,并且其准确率不能被接受,通常用不同的网络拓扑或使用不同的初始权重集重复训练过程
7.技术使用爬山法,从一个有选择的改良的初始结构开始
8.后向传播通过迭代地处理训练元组数据集,把每个元组的网络预测与世实际已知的目标值比较进行学习
9.网络的初始权重为小随机数,每一个单元都有一个相关联的偏倚,偏倚也初始化为小随机数知识点十三支持向量机
1.支持向量机是一种对线性和非线性数据进行分类的方法使用非线性映射,把原训练数据映射到较高的维上在新的维上,它搜索最佳分离超平面使用到最够高纬上的、合适的非线性映射,两个类的数据可以被超平面(最佳决策边界)分开使用支持向量和边缘发现该超平面
2.最简单的是两个线性可分的,X为训练集,具有类标号yi,每一个可以取正负1,分别对应买或者不买电脑可以用一条线将两类属性分开,即二维数据是线性可分的
3.SVM搜索具有最大边缘的超平面(MMH),即最大边缘超平面,预料有较大边缘的超平面在对未来数据元组分类上比具有较小边缘的超平面更准确MMH相关联的边缘给出类之间的最大分离性
4.MMH到两个侧面的最短距离相同,侧面平行于MMHo(PS求距离的公式)支持向量使得等式成立时的元组的集合将距离公式改写成决策边界,根据正负号判断属于哪一类
5.拓展线性方法的步骤把非线性映射把原输入数据变换到较高维空间;在新的空间搜索分离超平面知识点十四聚类分析
1.聚类就是把一个数据对象划分成子集的过程,每一个子集是簇,使得簇中的对象彼此相似,但是与其他簇中的对象不相似它是无监督学习,通过观察学习,而不是示例学习
2.K-均值算法(基于形心的技术,采用迭代和贪心的策略)常常终止于局部最优解当存在噪声和异常时,中心点方法优于均值,更加鲁棒
3.中心点算法是初始代表对象(称为种子)随意选取,考虑用一个非代表对象替代一个代表对象看能否提高聚类的质量,尝试所有可能的替换,继续用其他对象来替代代表对象的迭代过程,直到结果聚类的质量不可能被任何替换提高。