数据挖掘技术教学大纲

南岸发送

教学，技术

文件大小15.28 KB

文件格式docx

分享时间2022-05-19

更多此类文档

立即下载

还剩10页未读，继续阅读

本资源只提供10页预览，全部文档请下载后查看！喜欢就下载吧，查找使用更方便

立即下载

文本内容:

《数据挖掘技术》课程教学大纲

一、课程基本信息课程名称（中文）数据挖掘技术课程代码课程名称（英文）Data Mining课程类别口通识教育课因专业教育课口实践教育课口创新创业课口其他课程学时40学时课程学分

2.5学分适用专业物联网工程专业（本科）开课学期第7学期先修课程概率与统计，数据库原理续修课程数据挖掘是计算机工程学院开设的一门重要的专业课程本课程主要讲授数据挖掘的基本概念，原理、方法和技术，具体包括数据的预处理、分类预测、关联挖掘，聚类分析等内容通过学习，使学生理解数据挖掘的课程简介基本流程，掌握数据挖掘的基本理论和技术，熟悉数据挖掘成果的表达；掌握数据挖掘的基本方法，能熟练地应用数据挖掘技术对现实数据进行有效的分析，能够结合Clementine软件从大量统计数据中获取有价值的信息

二、课程教育目标

（一）总体目标数据挖掘是高级数据处理和分析技术通过本课程学习，使学生了解数据挖掘这种现代数据分析和知识挖掘方法的思想与技术，了解数据挖掘的基本理论,掌握重要的数据挖掘方法，掌握如何利用Clementine实现数据分析和挖掘，并使学生具有进一步学习的基本与能力

（二）具体目标

1.能够导入、输出各种类型的数据，并对数据进行简单描述统计

2.能够编写建立线性回归模型、非纯性回归模型、编写回归模型的程序,

6.3Clementine的两步聚类及应用

1.两步聚类算法

2.Clementine的两步聚类应用【学习目标】聚类是将数据分类到不同的类或者簇的过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性聚类分析是一种探索性的分析,在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析聚类分析还可以作为其他算法（如分类和定性归纳算法）的预处理步骤聚类是数据挖掘技术中一个重要组成部分，内容很多，因此要求学生掌握聚类分析原理、基本方法和主要算法【重点、难点】

2.重点

（1）聚类分析原理

（2）主要聚类方法分类

2.难点Clementine操作基础【教学方法】

1.通过多媒体课件和传统教学相结合，阐明课程与教学基本原理，丰富学生课程与教学的基本知识结构，培养学生的职业规范；

2.通过案例分析，强调理论与实践相结合，促进学生知识整合，培养学生的反思能力

五、考核方式及成绩评定

1.考核方式课程考核方式分为过程考核（平时考核）和课终考核（期末考核）过程考核（平时考核）方式包括课堂表现、平时作业、阶段性测试、调研报告等；课终考核（期末考核）采用考查

2.总成绩评定总成绩;过程成绩（平时成绩）*50%+课终成绩（期末成绩）*50%（其中过程成绩的占比由课程组根据课程实际提出并报二级学院决定）

3.过程成绩（平时成绩）评定

（1）课堂表现（5%）学生主动参与课堂练习、讨论，创造性地提出问题的能力；

（2）作业完成情况（10%）学生平时作业提交次数及完成质量；

（3）阶段性测验（10%）学生在平时测试、测验中掌握课程的情况；

（4）研究报告（10%）学生收集资料能力，研究设计能力，解决实际问题能力和合作研究能力；

（5）实践教学（10%）；

（6）考勤（5%）o

4.期末考试期末考试主要考察对基本概念、操作程序和具体方法的理解与运用等

六、建议教材和主要参考书目

（一）建议教材《基于Clementine的数据挖掘》，薛薇陈欢歌主编，中国人民大学出版社，2012-3第一版

（二）参考书目

1.《数据挖掘概念与技术》，（美）韩家炜（Han,J.）等著，范明等译机械工业出版社，2012年第8月

七、其它说明（-）课程实践环节及基本要求见《数据挖掘技术》实验教学大纲

（二）课程资源通过互联网查阅相关学习资料

（三）其他

1.制定依据依据2019年物联网工程专业人才培养方案制定

2.执行对象从2019级学生开始执行执笔人（签字）参与人（签字）:二级学院审核（签字）学校审批（签字）年月日并能够通过程序检验模型

3.能够对数据进行聚类分析、分类分析、关联分析、能够对文本数据进行数据挖掘

三、课程学时分配课程章节课程内容理论学时实践学时第一章数据挖掘和Clementine2第二章Clementine数据管理2第三章Clementine数据的基本分析26第四章关联规则挖掘26第五章分类与预测46第六章聚类分析46合计——「----------------------------------1624

四、课程内容第一章数据挖掘和Clementine使用概述【教学内容】

1.1数据挖掘的产生背景

2.数据挖掘产生的背景

3.数据挖掘的发展

4.数据挖掘概述

5.2什么是数据挖掘

6.数据挖掘概念

7.数据挖掘分类

8.数据挖掘体系结构

1.3Clementine软件概述

2.Clementine的配置

3.Clementine操作基础【学习目标】本章作为绪论，其目的是让学生对数据挖掘技术有一个总体的认识因此,主要内容是对数据挖掘技术的概念、产生背景、发展趋势以及应用等进行提炼和概括，并熟悉Clementine软件的使用环境要求学生掌握以下内容

1.数据挖掘的发展

2.数据挖掘基本知识

3.数据挖掘功能

4.数据挖掘应用

5.数据挖掘的热点问题

6.熟悉Clementine软件【重点、难点】

1.重点

（1）数据挖掘概念

（2）数据挖掘分类

2.难点Clementine操作基础【教学方法】

1.通过多媒体课件和传统教学相结合，阐明课程与教学基本原理，丰富学生课程与教学的基本知识结构，培养学生的职业规范；

2.通过案例分析，强调理论与实践相结合，促进学生知识整合，培养学生的反思能力第二章Clementine数据管理【教学内容】

2.1数据源节点（Sources）

1.从开放数据库中导入数据

2.从文本文件中读取数据

3.导入Excel格式的数据

4.用户手动创建数据

2.2记录选项节点Record Ops

1.选择节点

2.对数据的抽样

3.修正数据集中的不均匀性

4.统计汇总

5.对节点数据的排序

6.区分节点来清除重复记录

7.3字段选项节点

1.变量说明

2.变量值的重新计算

3.变量类别值的调整

4.生成新变量

5.变量值的离散化处理

6.生成样本集分割变量【学习目标】本章中的数据管理主要是指数据挖掘中的数据预处理部分对数据进行预处理，不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策和预测作用数据预处理一般包括数据清理，数据集成，数据变换，数据归约等方法要求学生掌握本章讲授的所有数据管理技术【重点、难点】

1.重点:1数据源节点2记录选项节点3字段选项节点

2.难点无【教学方法】

1.通过多媒体课件和传统教学相结合，阐明课程与教学基本原理，丰富学生课程与教学的基本知识结构，培养学生的职业规范；

2.通过案例分析，强调理论与实践相结合，促进学生知识整合，培养学生的反思能力第三章Clementine数据的基本描述分析【教学内容】

3.1数据质量探索

1.数据的基本描述与质量探索

2.离群点和极端值的修正

3.缺失值的替补

4.数据质量管理的其他功能

5.2数据基本描述分析

1.计算基本描述统计量

2.绘制散点图

3.3两分类变量相关性的研究

1.两分类变量相关性的图形分析

2.两分类变量相关性的数值分析

3.4两总体的均值比较

3.5变量重要性分析【学习目标】基本描述分析是数据分析的基础，通常对数值型变量进行描述分析，涉及数据的集中趋势和离散程度描述集中趋势的描述性统计量一般有均值、中位数和众数；描述离散程度的描述性统计量一般有方差、标准差和极差要求学生掌握Clementine数据的基本分析方法【重点、难点】

1.重点1数据质量探索2数据基本描述分析

2.难点两分类变量相关性的研究【教学方法】

3.通过多媒体课件和传统教学相结合，阐明课程与教学基本原理，丰富学生课程与教学的基本知识结构，培养学生的职业规范；

4.通过案例分析，强调理论与实践相结合，促进学生知识整合，培养学生的反思能力第四章关联规则挖掘【教学内容】

4.1关联规则概述

1.基本概念

2.关联规则表示

3.关联规则挖掘算法简介

4.2Apriori算法

1.Apriori算法生成频繁项集的过程

2.Apriori算法从频繁项集产生关联规则

4.3在Clementine中应用Apriori算法

5.4序列模式挖掘

1.序列与序列模式

2.Apriori算法

3.在Clementine中应用序列模式挖掘【学习目标】关联规则是形如X-Y的蕴涵式，其中，X和Y分别称为关联规则的先导和后继其中，关联规则XfY,存在支持度和信任度本章对关联规则挖掘中的概念、方法、算法进行全面的分析和讲解由于关联规则挖掘是数据挖掘技术中研究最早、成果最多、相对比较成熟的分支，因此本章重点在于一些经典理论和算法、热点问题的介绍要求学生掌握以下内容:

1.关联规则相关概念

2.Apriori算法

3.在Clementine中应用Apriori算法【重点、难点】

2.重点1关联规则相关概念2Apriori算法

2.难点序列模式挖掘【教学方法】

1.通过多媒体课件和传统教学相结合，阐明课程与教学基本原理，丰富学生课程与教学的基本知识结构，培养学生的职业规范；

2.通过案例分析，强调理论与实践相结合，促进学生知识整合，培养学生的反思能力第五章分类与预测【教学内容】

5.1分类与决策树概述

1.分类和预测数据分析形式介绍

2.决策树概述

3.2ID

3、C

4.5与C

5.0算法及应用

1.信息病计算

2.决策树归纳策略

3.ID3算法及缺点

4.C

4.5算法

5.C

5.0算法及优点

6.在Clementine中应用C

05.3二项Logistic回归分析

6.4二项Logistic回归分析应用【学习目标】分类是指把数据样本映射到一个事先定义的类中的学习过程，即给定一组输入的属性向量及其对应的类，用基于归纳的学习算法得出分类预测可以涉及数据值预测和类标记预测，但预测通常指值预测两者的区别是，分类是用来预测数据对象的类标记，而预测则是估计某些空缺或未知值分类与预测在数据挖掘中是一项非常重要的方面，本章对分类与预测的基本概念与步骤、经典的方法以及有关的问题进行了阐述要求学生掌握以下内容:分类和预测数据分析形式

1.ID3算法

2.C

4.5算法

3.Logistic回归分析【重点、难点】

1.重点1决策树概述2ID3算法3C

4.5算法

2.难点:Logistic回归分析【教学方法】

1.通过多媒体课件和传统教学相结合，阐明课程与教学基本原理，丰富学生课程与教学的基本知识结构，培养学生的职业规范；

2.通过案例分析，强调理论与实践相结合，促进学生知识整合，培养学生的反思能力第六章聚类分析【教学内容】

6.1聚类分析的一般问题

1.聚类分析介绍

2.聚类分析应用领域