还剩14页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
统计案例
3.1回归分析的基本思想及其初步应用(共计4课时)授课类型新授课
一、教学内容与教学对象分析学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用
二、学习目标
1、知识与技能通过本节的学习,了解回归分析的基本思想,会对两个变量进行回归分析,明确建立回归模型的基本步骤,并对具体问题进行回归分析,解决实际应用问题
2、过程与方法本节的学习,应该让学生通过实际问题去理解回归分析的必要性,明确回归分析的基本思想从散点图中点的分布上我们发现直接求回归直线方程存在明显的不足,从中引导学生去发现解决问题的新思路一进行回归分析,进而介绍残差分析的方法和利用R的平方来表示解释变量对于预报变量变化的贡献率,从中选择较为合理的回归方程,最后是建立回归模型基本步骤
3、情感、态度与价值观通过本节课的学习,首先让显示了解回归分析的必要性和回归分析的基本思想,明确回归分析的基本方法和基本步骤,培养我们利用整体的观点和互相联系的观点,来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心加强与现实生活的联系,以科学的态度评价两个变量的相关系教学中适当地增加学生合作与交流的机会,多从实际生活中找出例子,使学生在学习的同时体会与他人合作的重要性,理解处理问题的方法与结论的联系,形成实事求是的严谨的治学态度和锲而不舍的求学精神培养学生运用所学知识解决实际问题的能力
三、教学重点、难点教学重点熟练掌握回归分析的步骤;各相关指数、建立回归模型的步骤;通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法教学难点求回归系数ab;相关指数的计算、残差分析;了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较
四、教学策略教学方法诱思探究教学法学习方法自主探究、观察发现、合作交流、归纳总结教学手段多媒体辅助教学
五、教学过程
(一)、复习引入回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法
(二)、新课探究对于一组具有线性相关关系的数据(工1,乂),(易,力)…(H〃),我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:人a=y—bx1£0-盼、.-歹b=£T2i=l2其中X=-YXz.^=—yCx9y成为样本点的中心.〃/=!〃/=!注回归直线过样本中心.你能推导出这两个计算公式吗从我们己经学过的知识知道,截距和斜率方分别是使取到最小值时a伊的值.由于注意到=y-J3x-a[ny-n]3x-ny-=Yx-xy.-y二一成_心+£玉M———-—]/=,i=l[Z0-xy-D]2〃_+£、•项i=l/=!在上式中,后两项和a月无关,而前两项为非负数,因此要使Q取得最小值当且仅当前两项的值均为0即有这正是我们所要推导的公式.下面我们从另一个角度来推导的公式.人教A版选修2-2P37习题
1.4A组第4题用测量工具测量某物体的长度,由于工具的精度以及测量技术的原因,测得n个数据1以证明用这个数据的平均值工=—〃=]表示这个物体的长度,能使这n个数据的方差最小.思考这个结果说明了什么?通过这个问题,你能说明最小二乘法的基本原理吗证明由于/(、)=—£3—%)2所以〃/=i2”小=杪“・)1〃令/⑴=,得工=一£《1〃可以得到,x=-Yai是函数fx的极小值点,也是最小值点.〃/=1I〃这个结果说明,用n个数据的平均值一2%表示这个物体的长度是合理的,这就是最小二乘法的基本原理.由最小二乘法的基本原理即得定理设xeR三=叫+易+...+£,贝|jn1]__[(尤一叫)2+(工一乃)~+.・・+(]一玉X)+(]一原)+・.・+(X-£)“]=$*■(*)nn当且仅当x=x=为+易+•••+£时取等号.n*式说明,工=_是任何一个实数工与玉客,…叫的差的平方的平均n~数中最小的数.从而说明了方差具有最小性也即定义标准差的合理性.卜面借助*式求Q=J—bxx—6Z2+y2—bx2—ci\-\yn—bxn—d2的最小值.=)力+・・・+)〃_/.叫+易+・・・+匕=§哉工nn由(*)式知,〃__〃当且仅当“=§—如且/=半——=—时,达到最小值1=1/=1^(xz.-x)2^(x-y)2一[£(也f)(y-y*1=1i=li=l£(改-对2/=!£(毛一x)(yi-y)Z也b=上^=A由此得Mf-_、2一V2—22/兀一尤)2^xi~fVC7=1f=la=y-bx.截距.借助||a|-|S|||a+b\\a\^-\b\和配方法,我们给出了人教A版必修3的第二章统计第三节变量间的相关关系中回归直线方程y=版+的一个合理的解释
1、回归分析的基本步骤画出两个变量的散点图.求回归直线方程.用回归直线方程进行预报.下面我们通过案例,进一步学习回归分析的基本思想及其应用
2、举例例
1.从某大学中随机选取8名女大学生,其身高和体重数据如表求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.解由于问题中要求根据身高预报体重,因此选取身高为自变量x,体重为因变量y.作散点图图
3.1-1从图
3.1-1中可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程来近似刻画它们之间的关系根据探究中的公式1和2可以得到5=
0.8490=—
85.
712.于是得到回归方程y=0849x—
85.
712.因此,对于身高172cm的女大学生,由回归方程可以预报其体重为y=0849x172-
85.712=
60.316kg.b=
0.849是斜率的估计值,说明身高x每增加1个单位时,体重y就增加
0.849位,这表明体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱?在必修3中,我们介绍了用相关系数;来衡量两个变量之间线性相关关系的方法本相关系数的具体计算公式为当r0时,表明两个变量正相关;当r〈0时,表明两个变量负相关.「的绝对值越接近1表明两个变量的线性相关性越强;r的绝对值接近于0时,表明两个变量之间几乎不存在线性相关关系.通常,当r的绝对值大于
0.75时认为两个变量有很强的线性相关关系在本例中,可以计算出r=
0.
798.这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的显然,身高172cm的女大学生的体重不一定是
60.316kg但一般可以认为她的体重接近于
60.316kg.图
3.1—2中的样本点和回归直线的相互位置说明了这一点由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用下面的线性回归模型来表示y=bx+a+e3这里a和b为模型的未知参数,e是y与y=bx+a之间的误差.通常e为随机变量机误差,它的均值Ee=0方差De=De=a2Q.这样线性回归模型的完整表达式为:y=以十十G2⑷回)=0D(e)=o-
2.在线性回归模型
(4)中,随机误差e的方差护越小,通过回归直线y=bx-\-a
(5)预报真实值y的精度越高.随机误差是引起预报值),与真实值y之间的误差的原因之一,大小取决于随机误差的方差.另一方面,由于公式
(1)和
(2)中和片为截距和斜率的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值y与真实值y之间误差的另一个原因.思考产生随机误差项e的原因是什么?一个人的体重值除了受身高的影响外,还受许多其他因素的影响.例如饮食习惯、是否喜欢运动、度量误差等.事实上,我们无法知道身高和体重之间的确切关系是什么,这里只是利用线性回归方程来近似这种关系.这种近似以及上面提到的影响因素都是产生随机误差e的原因.因为随机误差是随机变量,所以可以通过这个随机变量的数字特征来刻画它的一些总体特征.均值是反映随机变量取值平均水平的数字特征,方差是反映随机变量集中于均值程度的数字特征,而随机误差的均值为0因此可以用方差来衡量随机误差的大小.为了衡量预报的精度,需要估计护的值.一个自然的想法是通过样本方差来估计总体方差.如何得到随机变量e的样本呢?由于模型
(3)或
(4)中的隐含在预报变量y中,我们无法精确地把它从y中分离出来,因此也就无法得到随机变量的样木.解决问题的途径是通过样本的估计值来估计.根据截距和斜率的估计公式
(1)和
(2)可以建立回归方程y=bx-\-a因此)是
(5)中y的估计量.由于随机误差e=y-y9所以e=y-y是e的估计量.对于样本点(工|凹)(x2y2)…,(xnyj而言,相应于它们的随机误差为弓=另_其=y_/zr・_Q1=12其估计值为乌=X-X-=_妩_心=12・・・〃,与称为相应于点(男乂)的残差(residual).类比样本方差估计总体方差的思想,可以用作为b的估计量,其中和片由公式
(1)
(2)给出,Q(b)称为残差平方和(residualsumofsquares).可以用b衡量回归方程的预报精度.通常,越小,预报精度越高.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据然后,可以通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据.这方面的分析工作称为残差分析.表3—2列出了女大学生身高和体重的原始数据以及相应的残差数据我们可以利用图形来分析残差特性作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.图
3.1-3是以样本编号为横坐标的残差图从图
3.1-3中可以看出,第1个样本点和第6个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.另外残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.另外,我们还可以用相关指数A来刻画回归的效果,其计算公式是显然,A取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R表示解释变量对于预报变量变化的贡献率.R越接近于1表示回归的效果越好(因为越接近于1表示解释变量和预报变量的线性相关性越强).如果对某组数据可能采取几种不同的回归方程进行回归分析,也可以通过比较几个R2选择R2大的模型作为这组数据的模型在例1中,R2=
0.64表明“女大学生的身高解释了64%的体重变化”,或者说“女大学生的体重差异有64%是由身高引起的”用身高预报体重时,需要注意下列问题回归方程只适用于我们所研究的样本的总体.例如,不能用女大学生的身高和体重之间的回归方程,描述女运动员的身高和体重之间的关系.同样,不能用生长在南方多雨地区的树木的高与直径之间的回归方程,描述北方干旱地区的树木的高与直径之间的关系我们所建立的回归方程一般都有时间性.例如,不能用20世纪80年代的身高体重数据所建立的回归方程,描述现在的身高和体重之间的关系样本取值的范围会影响回归方程的适用范围.例如,我们的回归方程是由女大学生身高和体重数据建立的,那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当(即在回归方程中,解释变量x的样本的取值范围为[155cm170cm)而用这个方程计算x-70cm时的y值,显然不合适)不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.一般地,建立回归模型的基本步骤为确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;画出确定好的解释变量和预报变量的散点图,观察它们之间的关系如是否存在线性关系等由经验确定回归方程的类型如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a按一定规则估计回归方程中的参数如最小二乘法;得出结果后分析残差图是否有异常个别数据对应残差过大,或残差呈现不随机的规律性等等,若存在异常,则检查数据是否有误,或模型是否合适等例
2.现收集了一只红铃虫的产卵数*和温度*之间的7组观测数据列于下表试建立*与x之间的回归方程;并预测温度为28W时产卵数目你所建立的模型中温度在多大程度上解释了产卵数的变化?探究方案1学生实施选择变量,画散点图通过计算器求得线性回归方程亍=
19.87^
463.73进行回归分析和预测R=r^O.864加
0.7464预测当气温为28时,产卵数为92个这个线性回归模型中温度解释了
74.64%产卵数的变化困惑随着自变量的增加,因变量也随之增加,气温为28时,估计产卵数应该低于66个,但是从推算的结果来看92个比66个却多了26个,是什么原因造成的呢?方案2找到变量t=x2将y=bx2+a转化成y=bt+a;利用计算器计算出y和t的线性回归方程疗367A
202.54转换回y和x的模型尸
0.367/-
202.54计算相关指数R2^
0.802这个回归模型中温度解释了
80.2%产卵数的变化预测当气温为28时,产卵数为85个困惑比66还多19个,是否还有更适合的模型呢?方案3作变换z=lgy将yTCj10转化成z=c2x+lgci线性模型利用计算器计算出z和x的线性回归方程z=O.U8x-L672转换回y和x的模型y=io8i672计算相关指数R2r
0.985这个回归模型中温度解释了
98.5%产卵数的变化预测当气温为28时,产卵数为42个解根据收集的数据作散点图(图
3.1—4).在散点图中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系.根据己有的函数知识,可以发现样本点分布在某一条指数函数曲线y=的周围,其中q和是待定参数.现在,问题变为如何估计待定参数q和2・我们可以通过对数变换把指数关系变为线性关系.令z=\ny,则变换后样本点应该分布在直线z=bx+a(a=Incx9b=Incx)的周围.这样,就可以利用线性回归模型来建立y和x之间的非线性回归方程了.由表3—3的数据可以得到变换后的样本数据表3—4图
3.1—5给出了表3—4中数据的散点图.从图
3.1-5中可以看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.由表3—4中的数据得到线性回归方程z=
0.272%-
3.
849.因此红铃虫的产卵数对温度的非线性回归方程为⑴=*.
272.T
849.
(6)另一方面,可以认为图
3.1—4中样本点集中在某二次曲线=c3x2+c4的附近,其中和%为待定参数.因此可以对温度变量做变换,即令t=然后建立y与t之间的线性回归方程,从而得到y与x之间的非线性回归方程.表3—5是红铃虫的产卵数和对应的温度的平方,图
3.1-6是相应的散点图.从图
3.1-6中可以看出,y与t的散点图并不分布在一条直线的周围,因此不宜用线性回归方程来拟合它,叩不宜用二次曲线=来拟合y和x之间的关系.这个结论还可以通过残差分析得到,下面介绍具体方法.为比较两个不同模型的残差,需要建立两个相应的回归方程.前面我们己经建立了y关于x的指数回归方程,下面建立y关于x的二次回归方程.用线性回归模型拟合表3一5中的数据,得到y关于t的线性回归方程y⑵=
0.367—
202.543即y关于x的二次回归方程为y⑵=
0.367f_
202.
543.
(7)可以通过残差来比较两个回归方程
(6)和
(7)的拟合效果.用Xj表示表3—3中第1行第i列的数据,则回归方程
(6)和
(7)的残差计算公式分别为妒)=舟f-gg0=l
2...7;妒一0367工2+
202.543J=l
2.・・
7.表3—6给出了原始数据及相应的两个回归方程的残差.从表中的数据可以看出模型
(6)的残差的绝对值显然比模型
(7)的残差的绝对值小,因此模型
(6)的拟合效果比模型
(7)的拟合效果好.在一般情况下,比较两个模型的残差比较困难.原因是在某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反.这时可以通过比较两个模型的残差平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.由表3一6容易算出模型
(6)和
(7)的残差平方和分别为
(1)
(2)Q=
1550.538(=
15448.
431.因此模型
(6)的拟合效果远远优于模型
(7).类似地,还可以用尸来比较两个模型的拟合效果,寸越大,拟合的效果越好.由表3一6容易算出模型
(6)和
(7)的寸分别约为
0.98和
0.80因此模型
(6)的效果好于模型
(7)的效果.对于给定的样本点(入]芦)(邑,>2)…,(工〃,义),两个含有未知参数的模型y])=fO)和J~)=g(x,),其中a和b都是未知参数.可以按如下的步骤来比较它们的拟合效果
(1)分别建立对应于两个模型的回归方程J=/(xa)与y2)=g(xb)其中和方分别是参数a和b的估计值;
(1)3
(1)9⑵分别计算两个回归方程的残差平方和Q=£(/-乂)2与/=!2白29Q=£乂—叫;/=!1212人,,1s右<Q则y=的效果比y=gxb的好;反之,y=f\x.ci的效果不如y)=g(x方)的好.求y对x的回归直线方程;预测水深为195m时水的流速是多少?解依题意,把温度作为解释变量x产卵个数y作为预报变量,作散点图,由观察知两个变量不呈线性相关关系但样本点分布在某一条指数函数y=C1ec2x周围.令z=lnya=lncibp则z=bx+a此时可用线性回归来拟合z=
0.272x-
3.843因此红铃虫的产卵数对温度的非线性回归方程为Uo.272X-
3.
843.Y=e
3、从上节课的例1提出的问题引入线性回归模型Y=bx+a+e解释变量x预报变量y随机误差e
4、1相关指数相关系数r公式,r0正相关.R0负相关R绝对值接近于1相关性强接r绝对值近于0相关性几乎无
5、回忆建立模型的基本步骤
①例2问题背景分析画散点图
②观察散点图,分析解释变量与预报变量更可能是什么函数关系^^_学生讨论后建立自己的模型引导学生探究如果不是线性回归模型如何估计参数能否利用回归模型通过探究体会有些不是线性的模型通过变换可以转化为线性模型^^^_对数据进行变换后,对数据新建立线性模型
⑥转化为原来的变量模型并通过计算相关指数比较几个不同模型的拟合效果
⑦总结建模的思想鼓励学生大胆创新
⑧布置课后作业习题
1.
11、
6、复习与巩固练习1某班5名学生的数学和化学成绩如下表所示,对x与y进行回归分析,并预报某学生数学成绩为75分时,他的化学成绩1求回归方程2求相关指数解略课堂小结知识梳理2规律小结1回归直线方程;2样本相关系数;3样本残差分析;4样本指数;建立回归模型的基木步骤作业课后反思本节内容对回归分析的探讨过程很精彩,学生讨论很热烈,激发了学生的学习热情但对残差分析学生只能欣赏它的过程,计算量太大,思维的跳跃性太强!
3.2独立性检验的基本思想及其初步应用(共计3课时)授课类型新授课
一、教学内容与教学对象分析通过典型案例,学习下列一些常用的统计方法,并能初步应用这些方法解决一些实际问题通过对典型案例(如“患肺癌与吸烟有关吗”等)的探究了解独立性检验(只要求2X2列联表)的基本思想、方法及初步应用通过对典型案例(如“人的体重与身高的关系”等)的探究,了解回归的基本思想、方法及其初步应用
二、学习目标
1、知识与技能通过本节知识的学习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确的判断明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验
2、过程与方法在本节知识的学习中,应使学生从具体问题中认识进行独立性检验的作用及必要性,树立学好本节知识的信心,在此基础上学习三维柱形图和二维柱形图,并认识它们的基本作用和存在的不足,从而为学习下面作好铺垫,进而介绍K的平方的计算公式和K的平方的观测值R的求法,以及它们的实际意义从中得出判断“X与Y有关系”的一般步骤及利用独立性检验来考察两个分类变量是否有关系,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小最后介绍了独立性检验思想的综合运用
3、情感、态度与价值观通过本节知识的学习,首先让学生了解对两个分类博变量进行独立性检验的必要性和作用,并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培养学生全面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质加强与现实生活相联系,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系,学习用图形、数据来正确描述两个变量的关系明确数学在现实生活中的重要作用和实际价值教学中,应多给学生提供自主学习、独立探究、合作交流的机会养成严谨的学习态度及实事求是的分析问题、解决问题的科学世界观,并会用所学到的知识来解决实际问题
三、教学重点、难点教学重点理解独立性检验的基本思想;独立性检验的步骤教学难点;
1、理解独立性检验的基本思想;
2、了解随机变量r的含义;
3、独立性检验的步骤
四、教学策略教学方法诱思探究教学法学习方法自主探究、观察发现、合作交流、归纳总结教学手段多媒体辅助教学
五、教学过程对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别像这类变量称为分类变量.在现实生活中,分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍,等等.在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别对于是否喜欢数学课程有影响?等等.为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果单位人表3-7吸烟与肺癌列联表那么吸烟是否对患肺癌有影响吗?像表3—7这样列出的两个分类变量的频数表,称为列联表.由吸烟情况和患肺癌情况的列联表可以粗略估计出在不吸烟者中,有
0.54%患有肺癌;在吸烟者中,有
2.28%患有肺癌.因此,直观上可以得到结论吸烟者和不吸烟者患肺癌的可能性存在差异.与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.图
3.2一1是列联表的三维柱形图,从中能清晰地看出各个频数的相对大小.图
3.2-2是叠在一起的二维条形图,其中浅色条高表示不患肺癌的人数,深色条高表示患肺癌的人数.从图中可以看出,吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例.为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图
3.2-3所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢?为了回答上述问题,我们先假设Ho吸烟与患肺癌没有关系.用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”独立”,即假设H等价于PAB=PA+PB.把表3-7中的数字用字母代替,得到如下用字母表示的列联表表3-8吸烟与肺癌列联表在表3—8中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事件A和B发生的频数.由于频率近似于概率,所以在Ho成立的条件下应该有aa+ba+cxnnn其中〃=Q+/+C+d为样本容量,a+b+c+dQa+ba+c即ad^bc.因此,|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad-be|越大,说明吸烟与患肺癌之间关系越强.为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变二〃ad-bc2一Mc+dS+cg其中〃=〃+/+c+d为样本容量.若Ho成立,即“吸烟与患肺癌没有关系”,则K“应该很小.根据表3—7中的数据,利用公式1计算得到K“的观测值为^=99657775x49-42x2099^
6.6327817x2148x9874x91这个值到底能告诉我们什么呢?统计学家经过研究后发现,在II成立的情况下,PAT
26.635^
0.
01.22式说明,在H成立的情况下,人2的观测值超过
6.635的概率非常小,近似为
0.01是一个小概率事件.现在爪2的观测值人
256.632远远大于
6.635所以有理由断定II不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过
0.01即我们有99%的把握认为“吸烟与患肺癌有关系”在上述过程中,实际上是借助于随机变量《2的观测值化建立了一个判断H是否成立的规则如果635就判断H°不成立,即认为吸烟与患肺癌有关系;否则,就判断H成立即认为吸烟与患肺癌没有关系在该规则下,把结论Ho成立”错判成Ho不成立”的概率不会超过P02z
6.635a
0.01即有99%的把握认为从不成立.上面解决问题的想法类似于反证法.要确认是否能以给定的可信程度认为“两个分类变量有关系”,首先假设该结论不成立,即Ho“两个分类变量没有关系”成立.在该假设下我们所构造的随机变量《2应该很小.如果山观测数据计算得到的《2的观测值k很大,则在一定可信程度上说明H不成立,即在一定可信程度上认为“两个分类变量有关系”;如果k的值很小,则说明由样本观测数据没有发现反对H的充分证据怎样判断A的观测值k是大还是小呢?这仅需确定一个正数幻,当kZk时就认为K2的观测值k大.此时相应于k°的判断规则为如果kk{9就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的幻为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率为PK,Nk.在实际应用中,我们把kk.解释为有1-PK220x100%的把握认为“两个分类变量之间有关系”;把kk.解释为不能以1-尸火220x100%的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据.上面这种利用随机变量来确定是否能以一定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验利用上面结论,你能从列表的三维柱形图中看出两个变量是否相关吗?一般地,假设有两个分类变量X和Y它们的可能取值分别为{与易}和{叫,光},其样本频数列联表(称为2X2列联表)为表3-92X2列联表若要推断的论述为FL:X与Y有关系可以按如下步骤判断结论H.成立的可能性通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.在三维柱形图中,主对角线上两个柱形高度的乘积ad与副对角线上的两个柱形高度的乘积be相差越大,也成立的可能性就越大.在二维条形图中,可以估计满足条件X二叫的个体中具有Y二)\的个体所占的比例堂一,也可以估计满足条件的个体中具有丫二刈,的个体所占的比例“两个比例a+bc+d的值相差越大,Hi成立的可能性就越大.可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是根据实际问题需要的可信程度确定临界值幻;利用公式
(1)由观测数据计算得到随机变量K2的观测值上;如果k〉k°就以(l-P(/r2Z:o))xlOO%的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据.在实际应用中,要在获取样本数据之前通过下表确定临界值:表3-10
(四)、举例例
1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.
(1)利用图形判断秃顶与患心脏病是否有关系.
(2)能够以99%的把握认为秃顶与患心脏病有关系吗?为什么?解根据题目所给数据得到如下列联表相应的三维柱形图如图
3.2-4所示.比较来说,底面副对角线上两个柱体高度的乘积要大一些,可以在某种程度上认为“秃顶与患心脏病有关”.根据列联表3—11中的数据,得到1437x214x597-175x4512k=^
16.
3736.389x1048x665x772因此有99%的把握认为“秃顶与患心脏病有关”・例
2.为考察高中生的性别与是否喜欢数学课程之间的关系在某城市的某校高中生中随机抽取300名学生,得到如下列联表表3—12性别与喜欢数学课程列联表由表中数据计算得K2的观测值比a
4.
514.能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.解可以有约95%以上的把握认为“性别与喜欢数学课之间有关系”.作出这种判断的依据是独立性检验的基本思想,具体过程如下分别用abcd表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数.如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例一日一与女生中喜欢数学课的人数比例应该相差很多,即a+bc+d应很大.将上式等号右边的式子乘以常数因子+Z+c+dci+bc+d+cb+d然后平方得爪2_nad-be2a+bc+dci+cb+d其中H+b+C+d.因此K越大,“性别与喜欢数学课之间有关系”成立的可能性越大.另一方面,在假设“性别与喜欢数学课之间没有关系”的前提下,事件A={K2^
3.841的概率为P犬2尊
3.841F05因此事件A是一个小概率事件.而由样本数据计算得的观测值k=
4.514即小概率事件A发生.因此应该断定“性别与喜欢数学课之间有关系”成立,并且这种判断结果出错的可能性约为5%.所以,约有95%的把握认为“性别与喜欢数学课之间有关系”.补充例题1打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问每一晚都打鼾与患心脏病有关吗?解略补充例题2对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示试根据上述数据比较两种手术对病人又发作心脏病的影响有没有差别解略
(四)课堂小结知识梳理规律小结
(1)三维柱形图与二维条形图
(2)独立性检验的基本思想
(3)独立性检验的一般方法
(五)作业五课后反思本节内容对独立性检验的探讨过程学生基本没什么困难,还有学生提出了新的探讨路径和思想,学生思维活泼!对独立性检验的作用,本节课也作了系统总结比较编号12315678身高/cm165165157170175165155170体重/kg4857505464614359编号123•15678身高/cm165165157170175165155170体重/kg4857505464614359残差e-
6.
3732.
6272.419-
4.
6181.
1376.627-
2.
8830.382温度xC21232527293235产卵数〃个711212466115325X21232527293235Z
1.
9463.
3983.
0453.
1784.
1904.
7455.784t44152962572984110241225X711212466115325X21232527293235y
7112124661153250.557-
0.
1011.875-
8.
9509.230-
13.
38134.
67547.
69619.400-
5.832-
41.000-
40.
1.4-
58.
26577.968例2(提示后做练习、作业)研究某灌溉渠道水的流速j,与水深X之间的关系,测得一组数据如下水深xni
1.
401.
501.
601.
701.
801.
902.
002.10流速
1.
701.
791.
881.
952.
032.
102.
162.21ym/sABcIE数学X8876736663化学y7865716461解略练习2某医院用光电比色计检验尿汞时,得尿汞含量mg/1与消光系数的结果如下尿汞含量x246810消光系数y64138205285360不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965不患肺癌患肺癌总计不吸烟aba+b吸烟Cdc+d总计a+cb+da+b+c+d总计总计
0.
500.
400.
250.
150.
100.
050.
0250.
0100.
0050.
0010.
4550.
7081.
3232.
0721.
3232.
7063.
8415.
0246.
63510.828喜欢数学课程不喜欢数学课程总计男3785122女35143178总计72228300患心脏病未患心脏病合计每一晚都打鼾30224254不打鼾2413551379合计5415791633又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392。