《模式识别与数据挖掘》课程教学大纲

佚名 · 6068

教学

文件大小21.38 KB

文件格式docx

分享时间2022-12-01

更多此类文档

立即下载

还剩9页未读，继续阅读

本资源只提供10页预览，全部文档请下载后查看！喜欢就下载吧，查找使用更方便

立即下载

文本内容:

《模式识别与数据挖掘》教学大纲

一、课程基本信息模式识别与数据挖掘课程名称Pattern Recognitionand DataMining课程编码CST521411030开课院部计算机科学与技术学院课程团队机器学习教学团队学分

3.0课内学时56讲授32实验0上机24实践0课外学时56适用专业智能科学与技术授课语言中文先修课程线性代数、概率论与数理统计、机器学习本课程系统地介绍模式识别和数据挖掘的基本理论、原理方法和应用，重点掌握贝叶斯决策理论、概率密度函数的估计、数据预处理、特征的选择与提取、基于K-L展开式的特征提取、关联规则挖掘、序列模式挖掘等，并且要掌握数据挖掘的主要技术，如统计方法、机器学习方法、神经计算、数据库系统与数据仓库等通过本课程的学习，培养学生对模式识别和数据挖掘的基本概念、基本原理、基本分析方法和算法的理解和掌握，培养学生利用模式识别和数据挖掘方法，运用技能解决本专业和相关领域的实际问题的能力并且课程还以专业知识点为主，挖掘课程知识点与思政元素的融合点为目标，利用思政案例、使学生在掌握专业知识的同时，培养学生树立正确的价值观和深入理解社会主义核心价值观等This coursesystematically introducesthe basictheories,principles,methods andapplicat ionsof patternrecognition and data mining,focusing onmastering Bayesiandecision theory,estimation ofprobability densityfunction,data preprocessing,课程简介（必feature selectionand extraction,feature extraction,association rulemining,sequential patternmining,etc.based onK-L修）expansion,and masterthe maintechnologies ofdata mining,such asstatistical methods,machine learningmethods,neural computing,database systemanddatawarehouse,etc.Through thestudy ofthis course,students wi11be trainedto understandand masterthe basicconcepts,principles,basic analysismethods andalgori thinsof patternrecognition anddata mining,to cultivate students*ability touse patternrecognition anddata miningmethods tosolve practicalproblems intheir majorand relatedfields.In addition,the coursealso focuseson professionalknowledge points,aiming atmining theintegration pointsof courseknowledge pointsand ideological and politicalelements,and usingideologicalandpolitical casesto enablestudents tomaster professionalknowledge whi1e atthe sametime,cultivatestudentsto establishcorrect valuesand in-depth understandingof socialistcore values.负责人大纲执笔人审核人A-按时提交作业，基本知识点理解无误B-按时提交作业，基本知识点理解存在少量错误4Ml实验20%C-数据分析过程存在问题D-不能按时提交实验报告，且完成不好5Ml期末考试50%（见试卷评分标准）A-缺勤2次以内6M2考勤5%B-缺勤3次及以上且很少参加课堂讨论7M2课堂表现10%（见试卷评分标准）A-按时提交作业基本知识点理解无误8M2平时作业15%B-按时提交作业，基本知识点理解存在少量错误A-按时提交作业，基本知识点理解无误B-按时提交作业，基本知识点理解存在少量错误9M2实验20%C-数据分析过程存在问题D-不能按时提交实验报告，且完成不好10M2期末考试50%（见试卷评分标准）A-缺勤2次以内11M3考勤5%B-缺勤3次及以上且很少参加课堂讨论12M3课堂表现15%（见试卷评分标准）A-按时提交作业基本知识点理解无误13M3平时作业15%B-按时提交作业，基本知识点理解存在少量错误A-按时提交作业，基本知识点理解无误B-按时提交作业，基本知识点理解存在少量错误14M3实验20%C-数据分析过程存在问题D-不能按时提交实验报告，且完成不好15M3期末考试50%（见试卷评分标准）评分等级说明[A,B,C,D,E]=[90-100,80-89,70-79,60-69,0-59];[A,B,C,D]=[90-100,75-89,60-74,0-59];[A,B,C]=[90-100,75-89,60-74,0-59];[M,N]=[80-100,0-79]

六、教材与参考资料序号教学参考资料明细1图书1模式识别，张学工，清华大学出版社，2010,ISBN:

9787302225003.（*主教材）2图书1数据挖掘概念与技术,Jian Pei,机械工业出版社，2012,ISBN:978711139140L（*主教材）3图书1数据挖掘导论，陈封能，人民邮电出版社，2011,ISBN:

9787115241009.

二、课程目标毕业要求指标点序号代号课程目标OBE任务自选目标1了解模式识别的应用背景与技术特征，熟悉模式识别的应用领域；理解数据挖掘的基本概念，1Ml是

12.2了解数据挖掘的国内外研究现状，并分析数据挖掘技术在工程问题上的可行性目标2掌握模式识别的基本理论与方法，掌握模式识别的主要原理和知识体系；掌握数据挖掘的主要2M2是

2.2功能、主要的挖掘算法和具体应用目标3利用模式识别方法、运用技能解决本专业及相关领域实际问题，并应用于工程实践；深化对数3M3是

2.2据挖掘相关算法的原理探究和方法的理解，提高对于数据的分析能力

三、课程内容支撑课程课内课外序号章节号标题课程内容/重难点教学方式课外环节目标学时学时本章重点难点监督模式识别与非监督模式识别；了解国内模式识别的发展和成就，熟悉领域内国内的著名学者

1.1模式与模式识别L2模式识别的主要方法第1章模式识别绪

1.3监督模式识别与非监督模式识别1第1章Ml2讲授2自学论L4模式识别系统举例语音识别，说话人识别，字符与文字识别，复杂图像中特定目标的识别L5模式识别系统的典型构成本章重点难点正态分布及其性质，正态分布概率模型下的最小错误率贝叶斯决策第2章统计决策方

2.1引言一个简单的例子2第2章Ml2讲授2自学法

2.2最小错误率贝叶斯决策最小错误率贝叶斯决策规则的等价形式

2.3最小风险贝叶斯决策

2.4两类错误率、ncyman-pcarson决策与roc曲线

2.5正态分布时的统计决策

2.6错误率的计算

2.7离散概率模型下的统计决策举例本章重点难点最大似然估计原理，正态分布时的贝叶斯估计，核密度估计

3.1引言

3.2最大似然估计最大似然估计的基本原理，最大似然估计的求解，正态分布下的最大似然估计第3章概率密度函3第3章

3.3贝叶斯估计与贝叶斯学习M22讲授2作业数的估计贝叶斯估计，贝叶斯学习，正态分布时的贝叶斯估计，其它分布的情况

3.4概率密度估计的非参数方法非参数估计的基本原理与直方图方法，KN近邻估计方法，Parzen窗法实验1概率密度4实验1概率密度函数估计的代码实现M22上机2上机函数估计实验本章重点难点特征的评价准则，特征选择的最优算法

4.1引言

4.2特征的评价准则5第4章第4章特征选择基于类内、类间距离的可分性判据，基于概率分布的可分性M22讲授/讨论2作业盘踞，基于燧的可分性判据，利用统计检验作为可分性判据

4.3特征选择算法特征选择的最优算法，特征选择的次优算法，单独最优特征的组合，顺序前进法，顺序后退法

4.4特征选择的遗传算法遗传算法的基本思想，遗传算法的实现

4.6以分类性能为准则的特征选择方法递归支持向量机，支持向量机递归特征剔除实验2特征选择6实验2特征选择的代码实现M22上机2上机实验本章重点难点karhunen-loeve变换，多维尺度法

5.1引言

5.2基于类别可分性判据的特征提取

5.3主成分分析方法

5.4karhunen-loeve变换K-L变换的基本原理，用于监督模式识别的K-L变换7第5章第5章特征提取

5.5k-1变换在人脸识别中的应用举例M23讲授3作业

5.6高维数据的低维显示

5.7多维尺度法MDS的基本概念，古典尺度发，度量型MDS,非度量型MDS,MDS在模式识别中的应用

5.8非线性变换方法简介核主成分分析，IsoMap方法和LLE方法实验3特征提取8实验3特征提取的代码实现M22上机2上机实验熟悉分类的基本概念及其基本过程，重点掌握基于决策树的分类，熟悉其它的几种分类方法9第6章第6章分类与预测

6.1分类的基本过程M23讲授/讨论3作业分为两步的过程利用训练集进行学习；使用模型预测给定数据的类标号进行分类评估

6.2分类模型的构造方法包括机器学习方法、统计方法、神经网络方法以及粗糙集的方法

6.3基于决策树（判定树）的分类决策树是一个类似流程图的树型结构，其中树的每个内部结点代表对一个属性的测试，其分支就是代表测试的每个结果，也就是每一种可能的值和一条边一一对应，叶子节点指定一个类别，其分类方法采用自顶向下的递归方式

6.4其他分类方法K-最临近（近邻）分类（KNN）,基于统计的分类策略实验4分类与预测10实验4分类与预测算法的代码实现M2,M32上机2上机实验本章难点重点熟悉聚类分析算法分类、聚类分析中的数据类型并掌握主要聚类方法的实现，包括基于层次方法以及划分方法（动态聚类法）

7.1聚类分析概述把一个给定的数据对象集合分成不同的簇；聚类就是按照事物的某些属性，把事物聚集成类，使类间的相似性尽可能的小，类内相似性尽量大的过程

7.2聚类分析算法分类11第7章第7章聚类分析M22讲授/讨论2作业分按照聚类的标准、聚类算法所处的数据类型及聚类的尺度三种方式来对聚类方法进行分类

7.3聚类分析中的数据类型基本的数据结构、数据的标准化测量、数值型数据的相异性度量及其它类型的变量相似性值

7.4主要聚类方法的实现其中层次方法可以分为凝聚层次方法（也称自底向上方法）、分裂层次方法（自顶向下方法）划分方法是基于一个n个对象或元组的数据库，构建数据的k个划分，每个划分表示一个簇，k=no实验5聚类分析12实验5聚类分析算法的代码实现M22上机2上机实验本章重点难点有限样本下错误率的区间估计问题

8.1监督模式识别方法的错误率估计训练错误率，测试错误率，交叉验证

8.2有限样本下错误率的区间估计问题第8章模式识别系13第8章问题的提出，用扰动重采样估计SVM错误率的置信区间M22讲授/讨论2作业统的评价

8.3特征提取与选择对分类器性能估计的影响

8.4从分类的显著性推断特征与类别的关系

8.5非监督模式识别系统性能的评价实验6模式识别14实验6监督模式识别方法的错误率估计实验M22上机2上机系统的评价实验本章主要介绍数据挖掘的定义和过程，介绍数据挖掘系统的一般结构，以及数据挖掘的常用方法和功能了解国内数据挖掘的发展和成就，熟悉领域内国内的著名学者

9.1数据挖掘的定义和过程数据挖掘数据挖掘即是从海量数据中获取知识的过程与方法第9章数据挖掘概

9.2数据挖掘的衡量标准15第9章Ml2讲授/讨论2自学述学会衡量KDD方法的标准，包括评价其描述模型的能力、精确性、鲁棒性等

9.3数据挖掘的常用方法常用KDD技术包括统计方法、机器学习方法、神经计算、数据库系统与数据仓库以及可视化实验7简单的数据16实验7简单的数据挖掘算法的代码实现M22上机2上机挖掘实验熟悉发现知识的归纳方法以及统计分析方法掌握数据仓库的定义以及其体系结构和设计与实现

10.1关系数据库的数据挖掘第10章基于数据库知识基表浓缩过程中发现知识的归纳方法以及微观操作时发现知识17第10和数据仓库的数据M22讲授2作业的统计分析方法挖掘

10.2基于数据仓库的挖掘数据仓库的组成、体系结构及其设计与实现实验8基于数据18实验8基于数据仓库的挖掘算法代码实现M2,M32上机2上机仓库的挖掘实验主要介绍数据库中的知识发现处理过程，了解数据预处理的重要性，掌握数据预处理的方法

11.1数据预处理的主要任务熟悉数据处理的应该完成的主要任务，包括数据清洗、数据集成、数据规约以及数据变换等19第11第11章数据预处理Ml,M22讲授2作业H.2数据清洗学习噪声数据处理以及不一致数据处理的方法

11.3数据集成与转换掌握数据集成处理以及数据转换的处理实验9数据清洗20实验9代码实现噪声数据的处理及不一致数据处理的方法M22上机2上机实验熟悉关联规则挖掘的基本概念，掌握关联规则算法Apriori及其改第12章关联规则挖21第12章进，学习并掌握FP增长算法M24讲授/讨论4作业掘

12.1关联规则挖掘简介关联规则挖掘在事务、关系数据库中的项集和对象中发现频繁模式、关联规则、相关性或者因果结构

12.2关联规则算法Apriori找出所有频繁数据项集，即找出所有支持度超过指定阈值的数据项集；利用平法数据项集，生成候选的关联规则，并验证其可信度如果可信度超过指定阈值，则该候选关联规则为要找的关联规则

12.3关联规则算法Apriori改进包括对数值性属性的处理、非事务数据库中关联规则的挖掘及算法效率的改进

12.4FP增长算法将数据库的信息压缩成一个描述频繁项相关信息的频繁模式树

12.55多层关联规则由于数据在多维空间的多样性，在低层或原始层的数据项之间很难找出强关联规则，在较高的概念层发现的强关联规则可能提供普遍意义的知识实验10关联规则22实验io几种关联规则挖掘算法的代码实现M2,M32上机2上机挖掘实验第13章第13章序列模式挖23序列模式挖掘算法的原理和实现M22讲授/讨论2作业掘实验11序列模式24实验11代码实现客户购买行为模式预测M22上机2上机挖掘实验本章难点重点图挖掘、多关系数据挖掘（MRDM）第14章图挖掘、社

14.1图挖掘25第14会网络分析M22讲授/讨论2作业用于挖掘大型图数据集的频繁图模式，并进行特征化、区分、分类和多关系和聚类分析

14.2社会网络分析社会网络展示了某些特征，它们倾向于遵守稠化哥律，它指出随着时间的增长，网络变得日益稠密

14.3多关系数据挖掘（MRDM）多关系数据挖掘方法搜索涉及关系数据库中多个表（关系）的模式实验12图挖掘26实验12代码实现挖掘大型图数据集的频繁图模式，并进行分析M2,M32上机2上机实验

四、考核方式序号考核环节操作细节总评占比1考勤随机点名、刷卡点名等5%

1.本课程24个学时实验，共12次实验2实验20%

2.成绩采用等级制，根据实验完成情况评分3课堂表现随机检查学生上课精神状态、回答问题情况10%

1.每周布置2-3道题目，平均每次课1道题以上4平时作业

2.成绩采用白分制，根据作业完成准确性、是否按时上交、是否独立完成评分15%

3.考核学生对基本知识的掌握能力、学生综合运用所学知识分析问题、解决问题的能力

1.闭卷考试，成绩采用百分制，卷面成绩总分10分5期末考试

2.主要考核学生对模式识别和数据挖掘基本知识的掌握能力，学生综合运用所学知识分析问题、解决问题的能力，题型主要50%有选择题、简答题、分析题、计算题、机器学习算法实现题等

五、评分细则序号课程目标考核环节大致占比评分等级A-缺勤2次以内1Ml考勤5%B-缺勤3次及以上且很少参加课堂讨论2Ml课堂表现10%（见试卷评分标准）A-按时提交作业基本知识点理解无误3Ml平时作业15%B-按时提交作业，基本知识点理解存在少量错误。