还剩20页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
学院XXXX《Python网络爬虫》教学大纲课程中文名称网络爬虫Python课程英文名称Python webcrawler课程号xxxxxxx课程属性专业限选课总学时学时36学分学分2面向对象计算机专业大学专科编写:审核:审定:学院教学委员会XXXX(学院章)
四、提取数据案例一一提取城市名称项目实战提取景区名称
十、主讲教师XXX(教授)、XXXX(副教授)、XXX(副教授)、XXX(副教授)、XXX(副教授)、XXX(副教授)、XXX(讲师)、XXX(讲师)、XXX(讲师)、XXX(讲师)、XXX(讲师)、XXX(助教)等第二部分教学内容项目一基础知识Python教学目的和要求掌握Python的安装过程;掌握Pycharm的安装过程;熟练掌握Python语法规范教学重点、难点重点
(1)Python概述
(2)Python命令的组成难点
(1)输出百度网址
(2)计算个人所得税教学内容任务1Python概述任务引入知识准备
一、Python简介
二、安装Python
三、安装PyCharm
四、Python语法规范任务2Python命令的组成任务引入知识准备
一、基本符号
二、常量与变量_案例------input演示案例------print演示案例一一设置变量格式案例一一输出迭代元素
三、数据类型案例一一创建列表并输出奇数位和偶数位案例一一元组创建演示
四、功能符号任务3程序结构任务引入知识准备
一、表达式语句案例一一计算表达式的值
二、顺序结构案例一一定义客户信息
三、选择结构案例一一输入一个非空字符串,翻转该字符串案例一一输入年、月,输出本月有多少天
四、循环结构案例一一利用while语句实现1至100的累加
五、条件表达式案例一一输出列表数据
六、程序的流程控制案例一一输入数值,若其中包含数值0,显示输入错误,使用break语句跳出循环案例一一输入数值,若其中包含数值0,显示输入错误,使用continue语句继续执行循环项目实战实战一输出百度网址实战二计算个人所得税项目二网络爬虫基础知识教学目的和要求掌握Python的网络爬虫的应用与基本概念;了解HTTP协议的工作原理;熟练掌握URL的编码与解码;理解网页请求过程教学重点、难点重点1网络爬虫基础知识2HTTP协议难点1搜索商品网址2搜索食品价格网址教学内容任务1网络爬虫概述任务引入知识准备
一、网络爬虫基本原理
二、网络爬虫系统框架
三、爬行策略
四、网络爬虫的分类
五、开源爬虫框架/项目任务2HTTP协议任务引入知识准备
一、HTTP协议工作原理
二、Urllib模块库
三、URL定义案例一一图片网址URL拆分案例一一房地产信息网网址拼接
四、URL编码设置案例-----输出编码网址案例一一网址编码案例-----网址编码与解码任务3网页请求过程任务引入知识准备
一、发送请求报文
二、返回响应
三、HTTP消息项目实战实战一搜索商品网址实战二搜索食品价格网址项目三请求模块库urllib教学目的和要求掌握网络请求函数;熟练掌握函数的各个参数使用方法;重点掌握通过代理发送网页请求过程;重点掌握通过身份验证发送网页请求过程;学会网页数据的下载方法并熟练使用教学重点、难点重点发送网页请求1网页下载2难点1下载Python学习网址2下载公司网页HTML文件教学内容任务1发送网页请求任务引入知识准备
一、基本HTTP请求案例一一获取公司数据案例一一设置请求超时时间案例一一爬取铁路车次信息案例一一不同方式发送请求
二、Request网络请求案例一一发送Request请求获取官网数据
三、设置请求头案例一一添加头信息获取网页数据
四、Handler方法发送请求案例-----自定义opener对象
五、设置代理IP案例一一创建代理IP
六、身份验证案例------获取网页cookie信息案例------保存百度cookie文件案例------加载淘宝cookie信息任务2网页下载任务引入知识准备
一、网页结构
二、写入网页文件案例一一下载微信公众平台网页文件
三、网页文件下载案例一一下载图虫网网页文件案例一一缓存临时文件项目实战实战一下载Python学习网址实战二下载公司网页HTML文件项目四请求模块库Urllib3教学目的和要求学会Urllib3安装与加载;熟练掌握Urllib3发送请求函数;对比Urllib3模块中的函数与Urllib中的区别;重点掌握自动重试发送网页请求过程;学会重定向发送网页请求过程教学重点、难点重点:
(1)安装Urllib3请求模块库
(2)发送请求难点发送请求访问淘宝教学内容任务1安装Urllib3请求模块库任务引入知识准备
一、安装Anaconda
二、Urllib3安装任务2发送请求任务引入知识准备
一、创建代理对象案例——获取邮箱登陆界面的响应
二、请求方法案例一一获取淘宝不同请求的响应
三、定义请求头案例一一获取带请求头的响应
四、设置代理IP案例一一使用代理IP发送请求
五、自动重试案例一一发送重试请求
六、重定向案例一一发送重定向请求项目实战实战一发送请求访问淘宝项目五请求模块库Requests教学目的和要求学会Requests安装与加载;熟练掌握Requests发送请求函数;学会网页响应数据的分析方法;重点掌握复杂网页请求过程;学会处理网页请求过程中的异常处理教学重点、难点重点1网页请求2发送请求方法难点爬取豆瓣最受欢迎的影评网址教学内容任务1网页请求任务引入知识准备
一、标准的HTTP请求案例一一访问豆瓣电影网
二、返回响应消息案例一一查看响应消息案例一一返回字符串响应数据案例一一定义响应数据编码格式案例一一设置网页响应数据格式
三、JSON格式数据案例一一创建json文件案例一一json数据的编码与解码任务2发送请求方法任务引入知识准备
一、发送GET请求方法案例一一搜索Autocad图书网页案例一一发送带url参数的请求
二、发送POST请求案例一一发送data提交表单数据案例一一发送Json提交表单数据案例一一发送body提交表单数据案例一一发送field提交表单数据
三、其他请求方法任务3复杂网络请求任务引入知识准备一直菇诸去头案M一二发送定制请求头信息
二、上传文件案例一一上传二进制数据
三、cookies验证案例------输出cookies信息
四、会话保持案例------通过session对象和requests发送get请求任务4异常处理任务引入知识准备
一、try/except语句
二、urllib异常处理模块案例一一处理URLError异常案例------处理urllib异常
三、urllib3异常处理模块
四、request异常处理模块案例处理request响应错误案例忽略SSL证书验证错误发送请求实战实战爬取豆瓣最受欢迎的影评网址项目六解析网页模块库教学目的和要求能够利用正则表达式编写简单的网页解析程序;能够利用Xpath编写简单的网页解析程序;能够利用BeaMfulSoup编写简单的网页解析程序教学重点、难点重点1则表达式解析网页2XPath解析网页3eautifulSoup解析网页难点1获取查询网中河北省石家庄市的邮编区号2爬取销售热门图书名称3下载销售热门图书的图片教学内容任务1正则表达式解析网页任务引入知识准备
一、正则表达式模式
二、使用re模块实现正则表达式
三、字符串查找案例一一字符查找演示案例一字符查找对象演示案例一一字符大小写查找演示案例一一区分大小写字符查找案例一一网址中查找数字案例一一输出数字查找结果表达式
四、字符串替换案例一一HTTP协议替换演示
五、字符串分割
六、案例一一字符分割演示任务2XPath解析网页任务引入知识准备
一、XPath概述
二、xpath网页解析案例一一解析文件中的HTML文件案例一一解析自定义HTML文件
三、获取节点信息案例一一获取HTML文本所有节点信息案例一一通过节点名称获取HTML文本节点案例一一使用不同表达式获取HTML文本节点
四、节点关系案例一一获取HTML文本父子节点
五、查找节点信息案例一一获取HTML子节点信息
六、属性节点案例一一获取HTML中属性节点的属性值
七、XPath运算符案例一一大于等于运算查找指定节点信息案例一一或运算查找节点信息案例一一选取多个路径下的节点
八、XML节点轴案例一一使用节点轴函数获取祖先节点与同级节点任务3BeautifulSoup解析网页任务引入知识准备
一、BeautifulSoup的安装
二、创建BeautifulSoup对象案例------使用Ixml解析html
三、通过属性获取节点内容案例------使用Ixml解析html案例------使用Ixml解析html获取节点文本
四、根据节点关系获取节点案例一一获取关联节点
五、查找节点内容案例一一获取符合条件的节点内容案例一一获取指定的节点内容
六、CSS选择器查找节点内容案例一一通过类选择器查找节点项目实战实战一获取查询网中河北省石家庄市的邮编区号实战二爬取销售热门图书名称实战三下载销售热门图书的图片项目七爬虫框架模块库Scrapy教学目的和要求领会爬虫框架的概念;能够了解爬虫框架模块库的安装与加载;利用Scrapy命令编写简单的网页爬取教学重点、难点重点1Scrapy爬虫框架2使用模板创建Spider文件难点提取景区名称教学内容任务1Scrapy爬虫框架任务引入知识准备
一、Scrapy爬虫框架基础
二、Scrapy常用命令
三、创建Scrapy项目任务2使用模板创建Spider文件任务引入知识准备
一、创建爬虫文件命令
二、创建basic模板文件
三、创建crawl模板文件
四、创建csvfeed模板文件
五、创建xmlfeed模板文件任务3Scrapy爬虫文件任务引入知识准备
一、Spider类
二、配置爬虫
三、启动爬虫案例一一保存body网页数据体信息
四、提取数据案例一一提取城市名称项目实战提取景区名称《网络爬虫》教学大纲Python第一部分大纲说明
一、课程性质与任务python网络爬虫》课程是计算机与数据工程学院计算机和大数据专业的公共基础调通过本课程的学习,使学生了解Python的基础知识,掌握Python的应用操作技能,学会利用Python进行绘图的基本方法,培养学生Python网络爬虫的素养和水平,提高学生解决Python机实际问题的能力
二、教学对象计算机专业大学专科
三、教学目的和要求本课程是一门技术性、实践性和实用性很强的课程,教学过程中要坚持“精讲多练”的指导思想,综合运用案例式、任务驱动式、项目式、研讨式、启发式等多种教学方法,充分利用网络、多媒体等现代教学手段,通过理论讲授、实例操作演示、上机实验等环节,培养学生的掌握Python网络爬虫的能力、自主学习能力、独立思考能力和开拓创新能力通过本课程的学习,了解Python网络爬虫的基础知识和应用技巧;熟悉Python网络爬虫的原则;掌握Python网络爬虫原理与应用知识要点;掌握Python网络爬虫实际的操作技能;结合实例,培养学生利用Python网络爬虫实践操作能力
四、先修课程本课程的先修课程是《Python网络爬虫》
五、使用教材及参考资料使用教材赵健胡仁喜.Python网络爬虫,北京电子工业出版社,
2023.7参考资料
[1].江吉彬张良均.Python网络爬虫技术.北京人民邮电出版社,2019
[2].韦世东.Python3网络爬虫宝典.北京电子工业出版社,2020
[3].明日科技.Python网络爬虫从入门到精通.北京清华大学出版社,2021
六、教学形式、教学方法及实践性环节教学形式理实一体化教学方法讲授与上机实验结合
七、考核考核形式上机考试;试卷结构单项选择题、判断题、操作题成绩评定期末考试8%,平时考核20%;
八、课时分配表总学时36学时章目教学内容教学课时项目一Python基础知识6项目二网络爬虫基础知识5项目三urllib请求模块库5项目四Urllib3请求模块库4项目五Requests请求模块库6项目六解析网页模块库6项目七Scrapy爬虫框架模块库4合计36
九、教学进度表周次学时教学内容第一周2项目一Python基础知识任务1Pylhon概述任务引入知识准备
一、Python简介
二、安装Python
三、安装PyCharm
四、Python语法规范任务2Pylhon命令的组成任务引入知识准备
一、基本符号
二、常量与变量案例------------input演示案例------print演示案例一一设置变量格式案例一一输出迭代元素第二周2项目一Python基础知识任务2Python命令的组成
三、数据类型案例一一创建列表并输出奇数位和偶数位案例------元组创建演示
四、功能符号任务3程序结构任务引入知识准备
一、表达式语句案例一一计算表达式的值
二、顺序结构案例一一定义客户信息
三、选择结构案例一一输入一个非空字符串,翻转该字符串案例一一输入年、月,输出本月有多少天项目一Python基础知识任务3程序结构
四、循环结构案例——利用while语句实现1至100的累加
五、条件表达式案例一一输出列表数据第三周2
六、程序的流程控制案例一一输入数值,若其中包含数值0,显示输入错误,使用break语句跳出循环案例一一输入数值,若其中包含数值0,显示输入错误,使用continue语句继续执行循环项目实战实战一输出百度网址实战二计算个人所得税项目二网络爬虫基础知识任务1网络爬虫概述任务引入知识准备
一、网络爬虫基本原理
二、网络爬虫系统框架
三、爬行策略
四、网络爬虫的分类第四周3
五、开源爬虫框架/项目任务2HTTP协议任务引入知识准备
一、HTTP协议工作原理
二、Urllib模块库
三、URL定义案例一一图片网址URL拆分案例一一房地产信息网网址拼接
四、URL编码设置案例------输出编码网址案例一一网址编码案例一一网址编码与解码项目二网络爬虫基础知识任务3网页请求过程任务引入知识准备
一、发送请求报文
二、返回响应
三、HTTP消息第五周2项目实战实战一搜索商品网址实战二搜索食品价格网址项目三urllib请求模块库任务1发送网页请求任务引入知识准备
一、基本HTTP请求第六周1案例一一获取公司数据案例一一设置请求超时时间案例一一爬取铁路车次信息案例------不同方式发送请求
二、Request网络请求案例一一发送Request请求获取官网数据项目三urllib请求模块库
三、设置请求头案例一一添加头信息获取网页数据
四、Handler方法发送请求案例------自定义opener对象第七周2
五、设置代理IP案例一一创建代理IP
六、身份验证案例——获取网页cookie信息窠例一一保存百度cookie文件案例------加载淘宝cookie信息项目三urllib请求模块库任务2网页下载第八周2任务引入知识准备
一、网页结构
二、写入网页文件案例一一下载微信公众平台网页文件
三、网页文件下载案例一一下载图虫网网页文件案例一一缓存临时文件项目实战实战一下载Python学习网址实战二下载公司网页11TML文件项目四Urllib3请求模块库任务1安装Urllib3请求模块库任务引入知识准备
一、安装Anaconda第九周2
二、Urllib3安装:任务2发送请求任务引入知识准备
一、创建代理对象案例一一获取邮箱登陆界面的响应
二、请求方法案例一一获取淘宝不同请求的响应项目四Uri1ib3请求模块库任务2发送请求
三、定义请求头案例一一获取带请求头的响应第十周2
四、设置代理IP案例一一使用代理IP发送请求
五、自动重试案例一一发送重试请求
六、重定向案例一一发送重定向请求项目实战实战一发送请求访问淘宝项目五Requests请求模块库任务1网页请求任务引入知识准备第十一周2
一、标准的HTTP请求案例一一访问豆瓣电影网
二、返回响应消息案例——查看响应消息案例一一返回字符串响应数据案例-----定义响应数据编码格式案例一一设置网页响应数据格式
三、JSON格式数据案例---------创建json文件案例------json数据的编码与解码任务2发送请求方法任务引入知识准备
一、发送GET请求方法案例------搜索Autocad图书网页案例一一发送带url参数的请求项目五Requests请求模块库任务2发送请求方法
二、发送POST请求案例一一发送data提交表单数据案例一一发送Json提交表单数据案例一一发送body提交表单数据案例一一发送field提交表单数据
三、其他请求方法任务3复杂网络请求任务引入第十二周2知识准备
一、复杂请求头案例一一发送定制请求头信息
二、上传文件案例一一上传二进制数据
三、cookies验证案例------输出cookies信息
四、会话保持案例------通过session对象和requests发送get请求项目五Requests请求模块库任务4异常处理任务引入知识准备第十三周2
一、try/excepl语句
二、urllib异常处理模块案例——处理URLError异常案例一一处理urllib异常
三、urllib3异常处理模块
四、request异常处理模块案例---------处理request响应错误案例一一忽略SSL证书睑证错误发送请求项目实战实战一爬取豆箫最受欢迎的影评网址项目六解析网页模块库任务1正则表达式解析网页任务引入知识准备
一、正则表达式模式
二、使用re模块实现正则表达式
三、字符串查找案例一一字符查找演示第十四周2案例一一字符查找对象演示案例一一字符大小写查找演示案例一一区分大小写字符查找案例一一网址中查找数字案例一一输出数字查找结果表达式
四、字符串替换案例一一HTTP协议替换演示
五、字符串分割
六、案例-------字符分割演示项目六解析网页模块库任务2XPath解析网页任务引入知识准备
一、XPath概述
二、xpath网页解析案例一一解析文件中的HTML文件案例——解析自定义HTML文件
三、获取节点信息案例——获取HTML文本所有节点信息案例——通过节点名称获取HTML文本节点第十五周2案例一一使用不同表达式获取HTML文本节点
四、节点关系案例一一获取HTML文本父子节点
五、查找节点信息案例——获取HTML子节点信息
六、属性节点案例——获取HTML中属性节点的属性值
七、XPath运算符案例一一大于等于运算查找指定节点信息案例一一或运算查找节点信息案例一一选取多个路径下的节点
八、XML节点轴项目六解析网页模块库任务3Beauli「ulSoup解析网页任务引入知识准备
一、BeautifulSoup的安装
二、创建BeautifulSoup对象案例------使用Ixml解析html
三、通过属性获取节点内容案例-----使用Ixml解析hind案例一一使用Ixml解析html获取节点文本第十六周2
四、根据节点关系获取节点案例一一获取关联节点
五、查找节点内容案例一一获取符合条件的节点内容案例一一获取指定的节点内容
六、CSS选择器查找节点内容案例一一通过类选择器查找节点项目实战实战一获取查询网中河北省石家庄市的邮编区号实战二爬取销售热门图书名称实战三下载销售热门图书的图片项目七Scrapy爬虫框架模块库任务1Scrapy爬虫框架任务引入知识准备
一、Scrapy爬虫框架基础
二、Scrapy常用命令第十七周2
三、创建Scrapy项目任务2使用模板创建Spider文件任务引入知识准备
一、创建爬虫文件命令
二、创建basic模板文件
三、创建crawl模板文件
四、创建csvfeed模板文件
五、创建xml feed模板文件项目七Scrapy爬虫框架模块库任务3Scrapy爬虫文件任务引入知识准备
一、Spider类
二、配置爬虫
三、启动爬虫案例一一保存body网页数据体信息第十八周2。