还剩7页未读,继续阅读
文本内容:
浙江大学远程教育学院《数据挖掘》课程作业姓名皇甫旭丹学号年级秋学习中心奉化学习中心2022第一章引言
一、填空题数据库中的知识挖掘包括以下七个步骤数据清理、数据集成、1KDD数据选择、数据变换、数据挖掘、模式评估和知识表示数据挖掘的性能问题主要包括算法的效率、一可护展性一和一并行处理一2当前的数据挖掘研究中,最主要的三个研究方向是统计学、数据库技3术和「》^——孤立点是指一些与数据的普通行为或者模型不一致的孤立数据4
二、简答题什么是数据挖掘?1答数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、实用的、隐含的、先前未知的和可能实用的模式或者知识一个典型的数据挖掘系统应该包括哪些组成部份?2答一个典型的数据挖掘系统应该包括以下部份数据库、数据仓库或者其他信息库、数据库或者数据仓库服务器、知识库、数据挖掘引擎、模式评估模块、图形用户界面挖掘包括哪些步骤?3Web答数据清理这个可能要占全过程的工作量;数据集成数据存入数据仓库建立数据立60%方体,选择用来进行数据挖掘的数据;数据挖掘选择适当的算法来找到感兴趣的模式;展现挖掘结果将模式或者知识应用或者存入知识库请列举数据挖掘应用常见的数据源4或者说,我们都在什么样的数据上进行数据挖掘答常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库其中高级数据库系统和信息库包括空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象.关系数据库、异种数据库和遗产数据库、文本数据库legacy和万维网等WWW第二章认识数据
一、填空题⑴两个文档向量和的值为则它们的余弦相似度为4c24=1,0,3,0,2,d=3,2,0,0,1,25/132数据离散度的常用度量包括3^__________________金位数_____.、百分位数四分位数极差和标准差一种常用的确定离群点的简单方法是出落在至少高于第三个四分卫数或者低于第3一个四分卫数处的值
1.5XIQR o
二、单选题对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关系是:
1、中位数=平均值=众数;中位数>平均值,众数;A B、平均值>中位数,众数;;众数,中位数,平均值C D答Co下面的散点图显示哪种属性相关性?2不相关;正相关;负相关;先正相关然后负相关;A BC D答
三、简答题Co什么是基于像素的可视化技术?它有什么缺点?1答对于一个维数据集,基于像素的可视化技术在屏幕上创建个窗口,每维一个记录的m m个维值映射到这些窗口对应位置上的个像素像素的颜色反映对应的值基于像素的可视m m化技术特点难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密区域对称的和不对称的二元属性有什么区别?2答对称的二元属性指变量的两个状态具有同等价值或者相同权重;而不对称的二元属性中,变量的两个状态的重要性是不同的对称的二元属性可以使用简单匹配系统评估它们的相异度;不对称的二元属性使用系数评估它们的相异度Jaccard第三章数据预处理
一、填空题()进行数据预处理时所使用的主要方法包括数据清理、数据集成、1数据变换和数据规约()数据概化是指沿概念分层向上概化2()数据压缩可分为有数压缩和无损压缩两种类型3()进行数值归约时,三种常用的有参方法是线性回归方法、多元回归4和对数线性模型
二、简答题()常用的数值属性概念分层的方法有哪些?1答常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于端的离散化和通过自然划分分段()请描述主成份分析()算法步骤2PCA答)规范化输入的数据所有属性落在相同区间内;)计算个标准正交向量,即主成分;12k)每一个输入数据的向量都是这个主成份向量的线性组合;)主成份按照重耍程度降序罗3k4列()在现实世界的数据中,元组在某些属性上缺少值是常有的描述处理该问题的各种方法3答处理空缺值的方法有)忽略元祖当类标号缺少时通常这么做(假定挖掘任务设计分类1或者描述),当每一个属性缺少值的百分比变化很大时,它的效果非常差)人工填写空缺值2这种方法工作量大,可行性低)使用一个全局变量填充空缺值比如使用或者-83unknown)使用属性的平均值填充空缺值)使用与给定元祖属同一类所有样本的平均值)使用最456可能的值填充空缺值如使用像公式或者判定树这样的基于判断的方法Bayesian()常见的数据归约策略包括哪些?4答数据归约策略包括()数据立方体会萃()维归约()数据压缩()数值归约()离12345散化和概念分层产生第六一七章挖掘频繁模式、关联和相关
一、填空题关联规则挖掘中,两个主要的兴趣度度量是支持度和置信度1算法包括连接和剪枝两个基本步骤2Aprior3项集的频率是指包含项集的事务数_______________________大型数据库中的关联规则挖掘包含两个过程找四所有频繁项集和由频繁项4集产生强关联规则根据规则中所处理的值类型,关联规则可分为布尔关联规则和量化关联规则5性质是指频繁项集的所有非空子集也必须是频繁的6Apriori在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集7
二、简答题简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点1答优点搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索缺点最小支持度值设置艰难,太高则将丢掉浮现在较低抽象层中故意义的关联规则;太低则会在较高层产生太多的无兴趣的规则如何提高算法的有效性?有哪些常见方法?2Apriori答可以使用以下几个思路提升算法有效性减少对数据的扫描次数;缩小产生的候选Apriori项集;改进对候选项集的支持度计算方法常见方法包括、基于表的项集计数;、事a hashb务压缩压缩进一步迭代的事务数、划分;、选样在给定数据的一个子集挖掘;>动态项c de集计数第八章分类
一、填空题数据分类模型的常用表示形式包括分类规则、决策树和数学公式等1朴素贝叶斯分类是基于类条件独立假设2
二、简答题在判定树归纳中,为什么树剪枝是实用的?1答决策树建立时,许多分枝反映的是训练数据中的噪声和离群点点,树剪枝可以识别并减去这种分枝,以提高对未知数据分类的准确性为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺点2答基于贝叶斯定理的判断需要大量训练数据以覆盖类条件概率空间,引入了很大开消朴素贝叶斯分类做了类条件独立假设,大幅降低了计算开消他的优点是容易实现并在大多数情况下可以取得较好的结果;他的缺陷是类条件独立在实际应用中缺乏准确性,因为变量之间时常存在依赖关系;这种依赖关系影响了朴素贝叶斯分类器的准确性分类方法的常用评估度量都有哪些?3答精度标记为正类的元祖实际为正类所占的百分比召回率正元祖标记为正的Precision百分比度量精度和召回率调和评估指标准确率识别率测试F accuracy,数据中被正确分类的元祖所占的百分比灵敏度真正例识别率特效性Sensitivity Specifictiy真负例率简述数据分类的两步过程4答第一步建立模型,建立描述预先定义的数据类或者概念集的分类器;第二步,在独立测试集上评估模型的预测准确率,通过测试后再使用模型,对新的数据进行分类
三、算法题1使用判定树归纳算法,根据顾客年龄age分为3个年龄段18,
18...23,23,收入income取值为high,medium,low,是否为student取值为yes和no,信用credit rating等级取值为fair和excellent来判定用户是否会购买PC Game,即构建判定树buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益对age18的顾客Gainincome=
0.022,Gainstudent=
0.162Gaincredit_rating=
0.323对age23的顾客Gainincome=
0.042,Gainstudent=
0.462Gaincredit rating=
0.155请根据以上结果绘制出判定树buys_PCGame,来判定用户是否会购买PC Gameincomestudent credit_rating classhighno fairyesmedium yes fair yeshighno fairyesmedium yesexcellent yesincomestudent creditrating classIncome studentcredit_rating classhighno fair no highno fairnomedium yesfairnohigh yesexcellent yeshighno fairno mediumyesfairyesmedium yesexcellent yes low yesfair yeslowno excellentyeslowno excellentno答:Credit ratingAge第十章聚类分析
一、填空题在数据挖掘中,常用的聚类算法包括划分方法、层次方法、基于密度1的方法、基于网格的方法和基于模型的方法聚类分析常作为一个独立的工具来获得数据分布的情况2一个好的聚类分析方法会产生高质量的聚类,具有两个特征高类内相似度3和低类间相似度许多基于内存的聚类算法所常用的两种数据结构是数据矩阵和相似度矩阵4基于网格的聚类方法的优点是处理速度快5
二、简答题简述基于划分的聚类方法划分的准则是什么?1答基于划分的聚类方法给定一个个对象或者元祖的数据库,一个划分方法构建数据的n k个划分,每一个划分表示一个簇,并且划分方法要求每一个组至少包含一个对象并且每k=no个对象属于且仅属于一个组聚类目标可以是最优化某种度量,比如最小化数据点与类中心的距离平方和等划分准测是同一个聚类中的对象尽可能地接近或者相关,不同聚类中的对象尽可能的原理或者不同列举离群点挖掘的常见应用°2答离群点检测应用有、欺诈检测;、网络入侵;、故障诊断;、可疑金融交易监控1234°第四章数据仓库和技术OLAP
一、填空题数据仓库的多维数据模型可以有三种不同的形式,分别是星形模式、雪花1模式和事实星座模式给定基本方体,方体的物化有三种选择不物化、部份物化和2全物化著名的数据仓库系统设计师认为,数据仓库与其他数据存储系统的区别的四个特征是3面向主题、数据集成、随时间而变化和数据不易丢失在数据访问模式上,数据仓库以事务操作为主,而日常应用数据库则以只读查4询为主数据立方体度量可以根据其所使用的会萃函数分为三类,分别是分布的、代数的和整5体的关于数据仓库的设计,四种不同的视图必须考虑,分别是一日顶向工图一.一数据源视6m图、数据仓库视图、商务查询视图服务器的类型主要包括关系服务器、多维服务器服7OLAP OLAPROLAP OLAPLAP和混合服务器OLAP IIOLAP求和函数是一个分布的函数8sum方体计算的主要挑战是海量数据和有限的内存和时间之间的矛盾9
二、简答题为什么在进行联机分析处理时,我们需要一个独立的数据仓库,而不是直接在日常操1OLAP作的数据库上进行答使用一个独立的数据仓库进行处理是为了以下目的、提高两个系统的性能操作OLAP1数据库是为而设计的,没有为操作优化,同时在操作数据库上处理查询,OLTP OLAP OLAP会大大降低操作任务的性能;而数据库是为而设计,为复杂的查询,多维视图,OLAP OLAP汇总等功能提供了优化、两者有着不同的功能操作数据库支持多事务的并行处理,OLAP2而数据仓库往往只是对数据记录进行只读访问;这是如果将事务处理的并行机制和恢复机制用于这种操作,就会显著降低的性能、两者有着不同的数据数据仓库中存放历OLAPOLAP3史数据;日常操作数据库中存放的往往只是最新的数据为什么说数据仓库具有随时间而变化的特征?2答、数据仓库的时间范围比操作数据库系统要长的多操作数据库系统主要保存当前数据,1而数据仓库从历史的角度提供信息比如过去・年、数据仓库中的每一个关键结构都隐5102式或者显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法2update-driven,而不愿使用查询驱动的方法?query-driven答因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特殊是需要聚集操作的查询,开消很大而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理此外,数据仓库存储并集成历史消息,支持复杂的多维查询请简述几种典型的多维数据的操作答上卷通过一个维的概念分层向上攀升或者通3OLAP过规约,在数据立方体上进行会萃;下卷上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以沿维的概念分层向下或者引入新的维来实现;切片在给定的数据立方体的一个维上进行选择,导至一个子方;切块通过对两个或者多个维执行选择,定义子方;转轴转动数据的视角,提供数据的替代表示;钻过执行涉及多个事实表的查询;钻透使用关系机制,钻到数据立方体的底层,到后端关系表SQL为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?5答、尽管数据仓库中的数据来自于数据库,但它们却是在物理上奋力保持的,操作数据1库的更新操作不会浮现在数据仓库环境下、数据仓库不需要事务处理,恢复,和冰法控2制等机制、数据仓库只需要两种数据访问数据的初始转载和数据访问3在数据仓库中,元数据的主要用途包括哪些?6答、用作目录,匡助决策支持系统分析者对数据仓库的内容定义、作为数据仓库和操12作性数据库之间进行数据转换时的映射标准、用于指导当前细节数据和稍加综合的数据3支援的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法数据仓库后端工具和程序包括哪些?7答、数据提取从多个外部的异构数据源采集数据;、数据清理检测数据中的粗偶并作12可能的订正;、数据变换将数据由历史或者主机的格式化为数据仓库的格式;、装载:排序、34汇总、合并、计算视图、检查完整性,并建立索引和分区;、刷新将数据源的更新传播到数5据仓库中。