还剩12页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
第一章
1、数据挖掘的概念及其特点数据挖掘概念在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据挖掘从数据中发现知识特点从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)
2、数据挖掘的核心(KDD)是什么?知识挖掘(KDD)数据挖掘与知识发现从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识数据清理:这个可能要占全过程60%的工作量
1、数据集成
2、数据选择
3、数据变换
4、数据挖掘(选择适当的算法来找到感兴趣的模式)
5、模式评估
6、知识表示
3、数据挖掘的体制结构
4、数据挖掘的主要方法(能够区分)常用模式
5、
6、
7、分类预测的说明比如按气候将国家分类,按汽油消耗定额将汽车分类导出模型的表示:判定树、分类规则、神经网络可以用来预报某些未知的或丢失的数字值聚类分析的说明例对WEB日志的数据进行聚类,以发现相同的用户访问模式孤立点分析的说明(应用___欺诈检测/____欺诈检测/客户划分/医疗分析(异常)第二章
1、数据仓库的概念(特点就在概念里)数据仓库是一个1面向主题的、2集成的、3随时间而变化的、4不容易丢失的数据__,支持管理部门的决策过程.
2、OLAP(联机分析处理)和OLTP(联机事务处理)的区别
1、用户和系统的面向性面向顾客(事务)VS.面向市场(分析)
2、数据内容当前的、详细的数据(事务)VS.___、汇总的数据(分析)
3、数据库设计实体-__模型ER和面向应用的数据库设计(事务)VS.星型/雪花模型和面向主题的数据库设计(分析)
4、数据视图当前的、企业内部的数据(事务)VS.经过演化的、集成的数据(分析)
5、访问模式事务操作(事务)VS.只读查询(但很多是复杂的查询)(分析)
6、任务单位简短的事务VS.复杂的查询
7、访问数据量数十个VS.数百万个
8、用户数数千个VS.数百个
9、数据库规模100M-数GBVS.100GB-数TB
10、设计优先性高性能、高可用性VS.高灵活性、端点用户自治
11、度量事务吞吐量VS.查询吞吐量、响应时间
3、__数据模型在__数据模型中,数据以数据立方体datacube的形式存在数据立方体允许以__数据建模和观察它由维和事实定义维是关于一个__想要记录的视角或观点每个维都有一个表与之相关联,称为维表__数据模型围绕中心主题__,该主题用事实表表示事实表包括事实的名称或度量以及每个相关维表的关键字事实指的是一些数字度量一个n维的数据的立方体叫做基本方体给定一个维的__,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体
3、几种常见的概念模型星型模式(Starsche__):事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余雪花模式(Snowflakesche__):是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中结果,模式图形成类似于雪花的形状事实星座(Factcons____ations):多个事实表共享维表这种模式可以看作星型模式集,因此称为星系模式(galaxysche__),或者事实星座(factcons____ation)
4、一种数据挖掘查询语言DMQL一种是立方体定义,一种是维定义立方体定义事实表definecubecube_name[dimension_list]:measure_list维定义维表definedimensiondimension_nameasattribute_or_subdimension_list
5、概念分层的概念一个概念分层定义一个映射序列,将低层概念映射到更一般的高层概念__数据模型(数据立方体)使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力;结合这两者的特征,我们可以在__数据模型上定义各种OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性
6、__数据模型上的OLAP操作上卷roll-up:汇总数据通过一个维的概念分层向上攀升或者通过维规约当用维归约进行上卷时,一个或多个维由给定的数据立方体删除下钻drill-down上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现为给定数据添加更多细节
7、数据仓库设计的三种方法(自顶向下法、自底向上法或者两者的混合方法)自顶向下法由总体设计和规划开始在技术成熟、商业理解透彻的情况下使用自底向上法以实验和原型开始常用在模型和技术__的初期,可以有效的对使用的技术和模型进行评估,降低风险混合方法上述两者的结合
8、元数据的概念,可以分为哪几类?元数据就是定义数据仓库对象的数据
1、数据仓库结构的描述仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容
2、操作元数据包括数据血统datalineage、数据类别currencyofdata,以及监视信息
3、汇总用的算法
4、由操作环境到数据仓库的映射
5、关于系统性能的数据索引,profiles,数据刷新、更新或____的调度和定时
6、商务元数据商务术语和定义、数据拥有者信息、收费政策等(技术元数据、业务元数据)第三章
1、什么是数据预处理?___进行?预处理的主要方法和内容概念数据预处理是知识发现过程的重要步骤检测数据异常、尽早地调整数据,并归约待分析的数据,将在决策过程中得到高回报进行的原因现实世界的数据是“肮脏的”——数据多了,什么问题都会出现不完整的有些感兴趣的属性缺少属性值,或仅包含聚集数据含噪声的包含错误或者“孤立点”不一致的在编码或者命名上存在差异没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成主要方法和内容数据清理:填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成:集成多个数据库、数据立方体或文件数据变换:规范化和聚集数据归约:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果数据离散化:数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要所占工作量最多的过程数据清理
2、如何处理空缺值?最理想的是哪个方法?忽略元组当类标号缺少时通常这么做(假定挖掘任务涉及分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差人工填写空缺值工作量大,可行性低使用一个全局变量填充空缺值比如使用unknown或-∞使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值使用像Bayesian公式或判定树这样的基于推断的方法(最理想)
3、什么是噪声,引起噪声的原因噪声一个测量变量中的随机错误或偏差引起噪声数据的原因数据收集工具的问题、数据输入错误、数据传输错误、技术限制、命名规则的不一致
4、数据平滑地分箱分箱binning:首先排序数据,并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等方法pri__的排序后数据(单位美元)4,8,15,21,21,24,25,28,34划分为(等深的)箱箱14,8,15箱221,21,24箱325,28,34用箱平均值平滑箱19,9,9箱222,22,22箱329,29,29用箱边界平滑箱14,4,15箱221,21,24箱325,25,
345、数据变换(规范化、最小最大要求掌握,计算),并解释___要做这样的变换规范化将数据按比例缩放,使之落入一个小的特定区间(最小-最大规范化、z-score规范化、小数定标规范化)最小-最大规范化数据规范化的一种方法是“最小—最大规范化”,即假设数据的取值区间为[old_minold___x],“最小—最大规范化”即把这个区间映射到新的取值区间[new_minnew___x]对于任意一个在原来区间中的变量,在新的区间中都有一个值和它对应,计算公式为现假设“客户基本情况”表中的客户月收入属性的实际值范围为[2100,8300],要把这个属性值规范到[0,1],对月收入属性值5600请应用上述公式将其进行规范,并解释___要进行这样的数据变换才是适于挖掘的形式练习假设数据集D是某公司每月利润增长数据,数据单位为元,取值范围-13000---32000之间,5%点为-900095%点在280000,根据3-4-5规则划分区间规范化对于基于距离的分类算法(如聚类)和神经网络算法是非常重要的,可以保证输入值在一个相对小的范围内,加快训练速度;另外,不会发生因为输入值的范围过大而使权重过大的情况参考运算空间量小,处理小数总比大数方便,对于计算效率和速度都有好处
6、3—4—5规划(例子要求掌握)自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间规则的划分步骤
1、如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;7-
2322、如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间;
3、如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;
4、将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;
5、对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间e.g.5%-95%例子如下图(参考书上P90—91)
7、关于属性值的类型(名称、序数连续、区间)
8、离散化中的三种类型的属性值名称型——e.g.无序__中的值;序数——e.g.有序__中的值;连续值(区间)——e.g.实数第四章
1、四种兴趣度量单位常用的四种兴趣度的客观度量简单性模式是否容易被人所理解模式结构的函数(模式的长度、属性的个数、操作符个数)e.g.规则长度或者判定树的节点个数确定性表示一个模式在多少概率下是有效的置信度A=B=包含A和B的元组值/包含A的元组值,e.g.buysX“computer=buysX“software”[30%80%]100%置信度准确的实用性可以用支持度来进行度量支持度A=b=包含A和B的元组数/元组总数e.g.buysX“computer=buysX“software”[30%80%]同时满足最小置信度临界值和最小支持度临界值的关联规则称为强关联规则新颖性提供新信息或提高给定模式集性能的模式通过删除冗余模式来检测新颖性(一个模式已经为另外一个模式所蕴涵)LocationX“Canada”=buysX“Sony_TV”[8%70%]LocationX“Vancouver”=buysX“Sony_TV”[2%70%]
2、特征化单词、关联、分类数据挖掘语言,指定挖掘知识类型特征化minecharacteristics数据区分minecomparison[aspattern_name]关联mineassociations分类mineclassification[aspattern_name]第四章
1、数据挖掘可以分为描述性挖掘和预测性挖掘,概念描述属于描述性挖掘
2、面向属性归纳的基本思想面向属性归纳的基本思想1)、使用关系数据库查询收集任务相关的数据2)、通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化3)、通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作4)、通过与用户交互,将广义关系以图表或规则等形式,提交给用户
3、数据概化的两种常用方法,属性删除和属性概化数据概化的两种常用方法属性删除和属性概化
1、属性删除的适用规则对初始工作关系中具有大量不同值的属性,符合以下情况,应使用属性删除在此属性上没有概化操作符(比如该属性没有定义相关的概念分层)该属性的较高层概念用其他属性表示
2、属性概化的使用规则如果初始工作关系中的某个属性具有大量不同值,且该属性上存在概化操作符,则使用该概化操作符对该属性进行数据概化操作第五章
1、哪些属性可以删掉,如phone#namename删除属性gender保留该属性,不概化__jor根据概念分层向上攀升{文,理,工…}birth_pla__根据概念分层location向上攀升birth_date概化为age,再概化为age_rangeresiden__根据概念分层location向上攀升phone#删除属性gpa根据GPA的分级作为概念分层
2、信息增益(计算)书上有个例子P
1313、特征化target充分、必要条件,量化规则写出一个规则能够理解并说出它的意思量化特征化规则必要条件量化区分规则充分条件量化描述规则充要条件给出表明对99年AllElectronics公司的TV和计算机销售,如果一商品在欧洲售出,则其为TV的概率为25%…该公司40%的TV在欧洲售出…
4、对四分位的理解和四分位的极差最常用度量五数概括(基于四分位数)、中间四分位数区间和标准差四分位数、孤立点和盒图百分位数第k个百分位数是具有如下性质的值x数据项的k%在x上或低于x四分位数Q125thper__ntileQ375thper__ntile中间四分位数区间IQR IQR=Q3–Q1对倾斜分布的描述,除了IQR还常需两个四分位数Q1和Q3,以及中位数M,一个识别孤立点的常用规则是挑出落在至少高于第三个四分位数或低于第一个四分位数
1.5×IQR处的值四分位,四分位数极差是多少?Ppt上的百分位数per__ntile第k个百分位数是具有如下性质的值x数据项的k%在x上或低于x四分位数Q125thper__ntileQ375thper__ntile中间四分位数区间IQR IQR=Q3–Q1对倾斜分布的描述,除了IQR还常需两个四分位数Q1和Q3,以及中位数M,一个识别孤立点的常用规则是挑出落在至少高于第三个四分位数或低于第一个四分位数
1.5×IQR处的值百度的四分位差(quartiledeviation),也称为内距或四分间距(inter-quartilerange),它是上四分位数(QL)与下四分位数(QU)之差,通常用Qd表示 计算公式为Qd=QL-QU 四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散四分位差不受极值的影响此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度四分位差主要用于测度顺序数据的离散程度对于数值型数据也可以计算四分位差,但不适合分类数据 四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数,即中位数)、Q3(第三四分位数)其中,Q3到Q1之间的距离的差又称为四分位差,记为Q四分位差越小,说明中间部分的数据越集中;四分位数越大,则意味着中间部分的数据越分散具体的
1.极差、四分位数和四分位数极差开始,让我们先学习作为数据散布度量的极差、分位数、四分位数、百分位数和四分位数极差设x1,x2…,xN是某数值属性X上的观测的__该__的极差(range)是最大值(__x)与最小值(min)之差假设属性X的数据以数值递增序排列想象我们可以挑选某些数据点,以便把数据分布划分成大小相等的连贯集,如图
2.2所示这些数据点称做分位数分位数(quantile)是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯__(我们说“基本上”,因为可能不存在把数据划分成恰好大小相等的诸子集的X的数据值为简单起见,我们将称它们相等)给定数据分布的第k个q-分位数是值x,使得小于x的数据值最多为k/q,而大于x的数据值最多为q-k/q,其中k是整数,使得0kq我们有q-1个q-分位数2-分位数是一个数据点,它把数据分布划分成高低两半2-分位数对应于中位数4-分位数是3个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一通常称它们为四分位数(quartile)100-分位数通常称做百分位数(per__ntile),它们把数据分布划分成100个大小相等的连贯集中位数、四分位数和百分位数是使用最广泛的分位数四分位数给出分布的中心、散布和形状的某种指示第1个四分位数记作Q1,是第25个百分位数,它砍掉数据的最低的25%第3个四分位数记作Q3,是第75个百分位数,它砍掉数据的最低的75%(或最高的25%)第2个四分位数是第50个百分位数,作为中位数,它给出数据分布的中心第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一半所覆盖的范围该距离称为四分位数极差IQR,定义为IQR=Q3-Q1(
2.5)例
2.10 四分位数极差四分位数是3个值,把排序的数据集划分成4个相等的部分例
2.6的数据包含12个观测,已经按递增序排序这样,该数据集的四分位数分别是该有序表的第
3、第6和第9个值因此,Q1=47000美元,而Q3=63000美元于是,四分位数极差为IQR=63000-47000=16000美元(注意,第6个值是中位数52000美元,尽管这个数据集因为数据值的个数为偶数有两个中位数)第六章
1.什么是关联规则挖掘?及常见应用?概念从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性应用“尿布与啤酒”、购物篮分析、分类设计、捆绑销售等购物篮分析中支持度置信度
2.关联规则的两个兴趣度度量对所有满足最小支持度和置信度的关联规则
3.Apriori算法求频繁项集Apriori算法步骤第七章1.分类vs预测概念典型应用2.训练数据集和训练样本的概念训练数据集由为建立模型而被分析的数据元组形成训练样本训练数据集中的单个样本(元组)3.什么是判定树(决策树)?如何应用它分类?
4.priori算法利用的是Apriori性质频繁项集的所有非空子集也必须是频繁的
4.多层关联——一致支持度一致支持度对所有层都使用一致的最小支持度优点搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索缺点最小支持度值设置困难太高将丢掉出现在较低抽象层中有意义的关联规则太低会在较高层产生太多的无兴趣的规则多层关联——递减支持度使用递减支持度,可以解决使用一致支持度时在最小支持度值上设定的困难递减支持度在较低层使用递减的最小支持度每一层都有自己的一个__的最小支持度抽象层越低,对应的最小支持度越小第八章
1、什么是聚类分析?聚类分析将物理或抽象对象的__分组成为由类似的对象组成的多个类的过程聚类是一种无指导的学习没有预定义的类编号
2、聚类分析的数据通常分为哪五个?二元变量、标称变量、序数型变量、比例标度变量、混合类型的变量
3.划分方法---簇的表示
(1)k-平均算法由簇的平均值来代表整个簇k-平均算法当邻近度函数采用曼哈顿距离的时候,合适的质心事簇中各个点的中位数
(2)k中心点算法由处于簇的中心区域的某个值代表整个簇。