还剩13页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《数据挖掘与管理决策》课程教学大纲课程编号:20157英文名:Data miningand ManagementDecision课程类别专业主干(双语)前置课:统计学、线性代数、管理学后置课:企业资源计划学分3学分课时51课时选定教材:Data MiningIntroductory andAdvanced Topics(影印版).Margaret H.Dunham.清华大学出版社,2003年10月课程概述数据挖掘是近年来伴随着数据库系统的大量建立和万维网的广泛使用而发展起来的_门数据处理和分析技术,它是数据库、机器学习与统计学这三个领域的交叉结合而形成的一门新兴技术本课程系统地介绍各种数据挖掘的基本概念、方法和算法,并结合软件介绍和管理决策案例分析进行系统学习数据挖掘和应用本课程由四部分构成第一部分是导论,全面介绍数据挖掘的背景信息、相关概念以及数据挖掘所使用的主要技术;第二部分是数据挖掘的核心算法,系统深入地描述了用于分类、聚类和关联规则的常用算法;第三部分是数据挖掘的高级课题,主要叙述了Web挖掘、空间数据挖掘、时序数据和序列数据挖掘通过数据挖掘技术找到蕴藏在数据中的有用信息,进而找到尚未发现的知识,为商业竞争、企业生产和管理、政府部门决策以及科学探索等提供信息与知识,对于帮助管理者作出科学决策具有重要价值第七章Web挖掘Web Mining课时分配6课时教学要求通过本章的教学,使学生了解Web内容挖掘(爬虫、Harvest系统、虚拟Web视图)、Web结构挖掘(PageRank、Clever).Web使用挖掘(预处理、数据结构、模式发现、模式分析)等高级数据挖掘技术和方法教学内容
7.1Introduction
7.2Web ContentMining
7.3Web StructureMining
7.4Web UsageMining思考题
1.Construct thetrie forthe stringA BA C.
2.The use of aWeb serverthrough aproxy(such asan ISP)complicates thecollection offrequent sequencestatistics.Suppose thattwo usersuse oneproxy andhave the following sessions:User1:1,3,1,3,436,8,2,3,6〉User2v2,3,4,3,6,8,6,3,l Whenthese areviewed togetherby theWeb server(taking into account thetime stamps),one largesession isgenerated:1,2,3,3,4,1,376,3,8,4,3/63,6,l,8/2/3/6Identify the maximal frequent sequences assuming a minimumsupport of
2.What arethemaximalfrequentsequencesif thetwo userscould beseparated
3.Perform aliterature surveyconcerning currentresearch intosolutions to the proxyproblem identifiedin Exercise
6.第八章空间数据挖掘(Spatial Mining)课时分配6课时教学要求通过本章的教学,使学生了解空间数据相关基本概念(空间查询、空间数据结构、主题地图和图像数据库)、空间数据挖掘原语、一般化和特殊化(渐进求精、-般化、最近邻、STING).空间规则(空间关联规则、空间分类算法、对ID3的扩展、空间决策树)、空间聚类算法(对CLARANS的扩展、SD(CLARANS)、DBCLASD.BANG、WaveCluster以及近似)教学内容
8.1Introduction
8.2Spatial DataOverview
8.3Spatial Data Mining Primitives
8.4Generalization andSpecialization
8.5Spatial Rules
8.6Spatial ClassificationAlgorithm
8.7Spatial ClusteringAlgorithms思考题
1.Compare the R-tree totheR*-tree.
2.Another commonlyused spatialindex isthe grid file.Define agrid file.Compare ittoak-D treeand aquad tree.Show thegridfilethat wouldbe used to indexthe datafound in Figure
8.
5.第九章时序数据挖掘(Temporal Mining)课时分配6课时教学要求通过本章的教学,使学生了解时序事件建模、时间序列(时间序列分析、趋势分析、变换、相似性、预测)、模式检测、时序序列(AprioriAIL SPADE、特征抽取)、时序关联规则(事务间关联规则、情节规则、趋势依赖、序列关联规则、日历关联规则)等方法,重点结合管理案例讲解数据分析方法教学内容
9.1Introduction
9.2Modeling TemporalEvents
9.3Time Series
9.4Pattern Detcdtion
9.5Sequences
9.6Temporal Association Rules思考题
1.Assume thatyou aregiven thefollowing temperaturevalues,Zt,taken at5-minute timeintervals:50,52z55,58,60,57,66,62,
60.Plot both乙曷and Zt.Does thereappear tobe anautocorrelation Calculate the correlationcoefficient.
2.Plot thefollowing timeseries valuesas wellas themoving averagefound byreplacing agiven valuewith theaverage ofit andones precedingand followingit:5157201358101211915}.For thefirst andlast values,you areto useonly thetwo valuesavailable tocalculate theaverage.
3.Investigate anddescribe twotechniques whichhave beenusedtopredict futurestock prices.附录:参考书目
1、《数据挖掘导论(完整版)》,Pangning Tan,Michael Steinbach,Vipin Kumar.范明,范宏建等译,人民邮电出版,
20162、《数据挖掘概念与技术》,Jiawei Han,Micheline Kamber.范明,孟小峰等译,机械工业出版社,
20073、《SPSS Modeler数据挖掘方法及应用(第2版)》.薛薇,陈欢歌,电子工业出版社,2014教学目的数据挖掘技术经过十几年的发展,已经取得一些重要成果,特别是在基本概念、基本原理、基本算法等方面发展的越来越清晰因此,现在开设此课程具备基本的技术条件本课程以介绍基本概念和基本算法为主,作为高级数据处理和分析技术,其目的是通过本课程学习让学生了解信息处理技术的发展方向以及数据挖掘技术本身的概念、原理和方法同时结合管理决策的案例进行教学,以前沿问题的讨论与探索为辅,为学生将来研究和学习提供知识储备,适应大数据时代的管理需要教学方法本课程课堂教学主要采用多媒体授课,并辅助以案例教学、课堂讨论和软件应用各章教学要求及教学要点第一章弓|言Introduction课时分配3课时教学要求通过本章的教学,使学生了解数据挖掘基本概念、数据挖掘技术,包括分类、回归、时间序列分析、预测、聚类、关联规则、序列发现,以及数据挖掘与数据库中的知识发现、数据挖掘对未来管理决策和社会发展的影响教学内容
1.1Basic Data Mining Tasks
1.2Data MiningVersus KnowledgeDiscovery inDatabases
1.3Data MiningIssues
1.4Data MiningMetrics
1.5Social Implicationsof Data Mining
1.6DataMiningfrom aDatabase Perspective
1.7The Future思考题
1.Identify anddescribe thephases in the KDDprocess,and howdoes KDDdiffer fromdata mining
2.Find atleast threeexamples ofdata mining applications that have appearedin thebusiness sectionof yourlocal publication.And describethe dataminingapplicationinvolved.第二章相关概念Related Concepts课时分配4课时教学要求通过本章的教学,使学生了解数据处理相关概念,掌握数据库/OLTP系统、模糊集和模糊逻辑、信息检索、决策支持系统、维数据建模、多维模式、索引、数据仓储、、Web搜索引擎、机器学习、模式匹配等方法及其应用的相关概念教学内容
2.1Database/OLTP Systems
2.2Fuzzy Setsand FuzzyLogic
2.3Information Retrieval
2.4Decision SupportSystems
2.5Dimensional Modeling
2.6Indexing
2.7Data Warehousing
2.8OLAP
2.9Web SearchEngines
2.10Statistics
2.11Machine Learning
1.Compare andcontrast database,information retrieval,and datamining queries.What metricsare usedto measurethe performanceof eachtype ofquery
2.Data warehouseare oftenviewed tocontain relativelystatic data.Investigate techniquesthat havebeen proposedto provideupdates tothis datafrom theoperational data.How oftenshould theseupdates occur第三章数据挖掘技术DataMiningTechniques课时分配:4课时教学要求:通过本章的教学,使学生了解数据挖掘技术的统计方法、贝叶斯定理、回归和相关、决策树、相似性、神经网络、激励函数和遗传算法等基本公式、计算步骤等内容教学内容
3.1Introduction
3.2A StatisticalPerspective onDataMining
3.3Similarity Measures
3.4Decision Trees
3.5Neural Networks
3.6Genetic Algorithms思考题
1.Given thefollowing setof values1,3,915z20},determine thejackknife estimatefor boththe meanand standarddeviation of the mean.
2.Find thesimilarity between,
010.
50.31and
100.500using theDice,Jaccard andCosine similaritymeasures.
3.given thedecision treeinFig.
3.5,classify eachofthefollowing students:Mary,20,F,2mf Senior,Math,Dave,19,Mz
1.7m,Sophomore,Computer scienceandMartha,18,F,L2m,Freshman,English.第四章分类Classification课时分配8课时教学要求了解分类中的问题和数据分析方法,包括基于统计的算法如回归、贝叶斯分类、基于距离的算法K最近邻、基于决策树的算法、神经网络、基于规则的算法以及其他组合技术教学内容
4.1Introduction
4.2Statistical-Based Algorithms
4.3Distance-Based Algorithms
4.4Decision Tree-Based Algorithms
4.5Neural Network-Based Algorithms
4.6Rule-Based Algorithms
4.7Combining Techniques思考题
1.Apply themethod ofleast squarestechnique todetermine the division betweenmedium andtall personsusing thetraining datain Table
4.1and classificationshown inoutputlsee example
4.
3.You mayuse eitherthedivisiontechnique orthe predictiontechnique.
2.Explain thedifference betweenP〃编and PQ/ti
3.Compare atleast threedifferent guidelinethathavebeen proposedfor determiningthe optimalnumber ofhidden nodesin anNN.
4.Various classificationalgorithm canbe foundonline.Apply theseprograms tothe heightexample inTable
4.1using thetraining classificationshown inthe output2column.第五章聚类Clustering课时分配6课时教学要求掌握相似性和距离度量、异常点、层次算法、划分算法(最小生成树、平方误差聚类算法、K均值聚类、最近邻算法等)、大型数据库聚舞BIRCH、DBSCAN.CURE算法)以及对类别属性进行聚类等方法教学内容
5.1Introduction
5.2Similarity andDistance Measures
5.3Outliers
5.4Hierarchical Algorithms
5.5Partitional Algorithms
5.6Clustering LargeDatabases
5.7Clustering withCategorical attributes
5.8Comparison思考题
1.Show thedendrogram createdby the single,complete,and averagelink clustering algorithms using thefollowingadjacency matrix.Item AB CD A0145B1026c4303D
56302.A majorproblem withthesinglelink algorithmis thatclusters consistingof longchains maybe created.Describe andillustrate thisconcept.
3.Trace the useofthe nearestneighbor algorithmon thedata ofExercise1assumingathreshold of
3.
4.Perform asurvey ofrecently proposedclusteringalgorithms.Identify wherethey fitintheclassification treein Figure
5.
2.Try todescribe theirapproach andperformance.第六章关联规则AssociationRules课时分配:8课时教学要求通过本章的教学,使学生了解大项目集法、基本算法Apriori算法、抽样算法、划分、并行和分布式算法、方法比较、增量规则、高级关联规则技术相关规则以及如何度量规则的质量,并结合实际案例进行应用分析教学内容:
6.1Introduction
6.2Large Itemsets
6.3Basic Algorithms
6.4Parallel andDistributed Algorithms
6.5Comparing Approaches
6.6Incremental Rules
6.7Advanced AssociationRule Techniques
6.8Measuring theQuality ofRules思考题
1.Trace theresults ofusing theApriori algorithmon thegrocery storeexample withs=20%and a=40%.Be sureto showthe candidatean large itemsets for each database scan.Also indicatethe associationrules thatwill begenerated.
2.Trace theresults ofusingthesampling algorithmon theclothing storeexample withs=20%and a=40%.Be sureto showtheuseof negativeborder functionas wellas thecandidate andlargeitemsetsforeachdatabasescan.
3.Calculatethelift andconviction forthe rulesshown inTable
6.3,Compare thesetotheshown supportand confidence.
4.Perform asurvey ofrecent researchexamining techniquesto generaterules incrementally.。