还剩11页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
变量间的相关关系与统计案例【考点梳理】1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.1在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.2在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.3如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程1最小二乘法使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.2回归方程两个具有线性相关关系的变量的一组数据x1,y1,x2,y2,…,xn,yn,其回归方程为=x+,则==,=-.其中,是回归方程的斜率,是在y轴上的截距.3.残差分析1残差对于样本点x1,y1,x2,y2,…,xn,yn,它们的随机误差为ei=yi-bxi-a,i=12,…,n,其估计值为i=yi-i=yi-xi-,i=12,…,n,i称为相应于点xi,yi的残差.2相关指数R2=1-.4.独立性检验1利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.2列联表列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表2×2列联表为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d则随机变量K2=其中n=a+b+c+d为样本容量.【考点突破】考点
一、相关关系的判断【例1】1两个变量的相关关系有
①正相关,
②负相关,
③不相关,则下列散点图从左到右分别反映的变量间的相关关系是 A.
①②③ B.
②③①C.
②①③D.
①③②2已知变量x和y满足关系y=-
0.1x+1,变量y与z正相关.下列结论中正确的是 A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关3对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是 A.r2r40r3r1B.r4r20r1r3C.r4r20r3r1D.r2r40r1r3[答案]1D 2C3A[解析]1第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是
①③②.2因为y=-
0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-
0.1x++,故x与z负相关.3由相关系数的定义以及散点图所表达的含义可知r2r40r3r
1.【类题通法】
1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关,若点散布在左上角到右下角的区域,则负相关.2.利用相关系数判定,当|r|越趋近于1,相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.【对点训练】1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是 A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%[答案]B[解析]因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%.2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论
①y与x负相关且=
2.347x-
6.423;
②y与x负相关且=-
3.476x+
5.648;
③y与x正相关且=
5.437x+
8.493;
④y与x正相关且=-
4.326x-
4.
578.其中一定不正确的结论的序号是 A.
①② B.
②③C.
③④D.
①④[答案]D[解析]正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为
①④.3.在一组样本数据x1,y1,x2,y2,…,xn,ynn≥2,x1,x2,…,xn不全相等的散点图中,若所有样本点xi,yii=12,…,n都在直线y=x+1上,则这组样本数据的样本相关系数为 A.-1B.0C.D.1[答案]D[解析]因为所有样本点都在直线y=x+1上,所以这组样本数据完全正相关,故其相关系数为
1.考点
二、线性回归方程及应用【例2】某地随着经济的发展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款年底余额,如下表1年份x20132014201520162017储蓄存款y千亿元567810表1为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2012,z=y-5得到下表2时间代号t12345z01235表21求z关于t的线性回归方程;2通过1中的方程,求出y关于x的回归方程;3用所求回归方程预测到2020年年底,该地储蓄存款额可达多少?附对于线性回归方程=x+,其中=,=-[解析]1由已知,得=3,=
2.2,izi=45,=55,==
1.2,=-=
2.2-
1.2×3=-
1.4,∴=
1.2t-
1.
4.2将t=x-2012,z=y-5,代入=
1.2t-
1.4,得y-5=
1.2x-2012-
1.4,即=
1.2x-
2410.
8.3∵=
1.2×2020-
2410.8=
13.2,∴预测到2020年年底,该地储蓄存款额可达
13.2千亿元.【类题通法】回归直线方程中系数的2种求法1公式法利用公式,求出回归系数,.2待定系数法利用回归直线过样本点中心,求系数.【对点训练】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x单位千元对年销售量y单位t和年利润z单位千元的影响.对近8年的年宣传费xi和年销售量yii=12,…,8数据作了初步处理,得到下面的散点图及一些统计量的值.xi-2wi-2xi-yi-wi-yi-
46.
65636.
8289.
81.
61469108.8表中wi=,=i.1根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?给出判断即可,不必说明理由2根据1的判断结果及表中数据,建立y关于x的回归方程.3已知这种产品的年利润z与x,y的关系为z=
0.2y-x.根据2的结果回答下列问题
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?附对于一组数据u1,v1,u2,v2,…,un,vn,其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=-.[解析]1由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.2令w=,先建立y关于w的线性回归方程.由于===68,=-=563-68×
6.8=
100.6,所以y关于w的线性回归方程=
100.6+68w,因此y关于x的回归方程为=
100.6+
68.3
①由2知,当x=49时,年销售量y的预报值=
100.6+68=
576.6,年利润z的预报值=
576.6×
0.2-49=
66.
32.
②根据2的结果知,年利润z的预报值=
0.
2100.6+68-x=-x+
13.6+
20.
12.所以当==
6.8,即x=
46.24时,取得最大值.故年宣传费为
46.24千元时,年利润的预报值最大.【例3】如图是我国2008年至2014年生活垃圾无害化处理量单位亿吨的折线图.注年份代码1~7分别对应年份2008~
2014.1由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;2建立y关于t的回归方程系数精确到
0.01,预测2016年我国生活垃圾无害化处理量.参考数据yi=
9.32,tiyi=
40.17,=
0.55,≈
2.
646.参考公式相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-.[解析]1由折线图中的数据和附注中的参考数据得=4,ti-2=28,=
0.55,ti-yi-=tiyi-yi=
40.17-4×
9.32=
2.89,所以r≈≈
0.
99.因为y与t的相关系数近似为
0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.2由=≈
1.331及1得==≈
0.
103.=-≈
1.331-
0.103×4≈
0.
92.所以y关于t的回归方程为=
0.92+
0.10t.将2016年对应的t=9代入回归方程得=
0.92+
0.10×9=
1.
82.所以预测2016年我国生活垃圾无害化处理量约为
1.82亿吨.【类题通法】线性回归分析就是研究两组变量间线性相关关系的一种方法,通过对统计数据的分析,可以预测可能的结果,这就是线性回归方程的基本应用,因此利用最小二乘法求线性回归方程是关键,必须熟练掌握线性回归方程中两个重要估计量的计算.【对点训练】为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位cm).下面是检验员在一天内依次抽取的16个零件的尺寸抽取次序12345678零件尺寸
9.
9510.
129.
969.
9610.
019.
929.
9810.04抽取次序910111213141516零件尺寸
10.
269.
9110.
1310.
029.
2210.
0410.
059.95经计算得,,,,其中为抽取的第个零件的尺寸,.1求的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).2一天内抽检零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.i从这一天抽检的结果看,是否需对当天的生产过程进行检查?ii在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到
0.01)附样本的相关系数,.[解析]1由样本数据得的相关系数为.由于,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.2i由于,由样本数据可以看出抽取的第13个零件的尺寸在以外,因此需对当天的生产过程进行检查.ii剔除离群值,即第13个数据,剩下数据的平均数为,这条生产线当天生产的零件尺寸的均值的估计值为
10.
02.,剔除第13个数据,剩下数据的样本方差为,这条生产线当天生产的零件尺寸的标准差的估计值为.考点
三、独立性检验【例4】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量单位kg,其频率分布直方图如下1设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率;2填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关箱产量50kg箱产量≥50kg旧养殖法新养殖法3根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值精确到
0.01.附PK2≥k
00.
0500.
0100.001k
03.
8416.
63510.828K2=.[解析]1记B表示事件“旧养殖法的箱产量低于50kg”,C表示事件“新养殖法的箱产量不低于50kg”.由题意知PA=PBC=PBPC.旧养殖法的箱产量低于50kg的频率为
0.012+
0.014+
0.024+
0.034+
0.040×5=
0.62,故PB的估计值为
0.
62.新养殖法的箱产量不低于50kg的频率为
0.068+
0.046+
0.010+
0.008×5=
0.66,故PC的估计值为
0.
66.因此,事件A的概率估计值为
0.62×
0.66=
0.
4092.2由1知可得列联表箱产量50kg箱产量≥50kg旧养殖法6238新养殖法3466由表中数据及K2的计算公式得,K2=≈
15.
705.由于
15.
7056.635,故有99%的把握认为箱产量与养殖方法有关.3因为新养殖法的箱产量频率分布直方图中,箱产量低于50kg的直方图面积为
0.004+
0.020+
0.044×5=
0.
340.5,箱产量低于55kg的直方图面积为
0.004+
0.020+
0.044+
0.068×5=
0.
680.5,故新养殖法箱产量的中位数的估计值为50+≈
52.35kg.【类题通法】解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤1根据样本数据制成2×2列联表;2根据公式K2=计算K2的观测值k;3比较k与临界值的大小关系,作统计推断.【对点训练】为了了解某学校高二年级学生的物理成绩,从中抽取n名学生的物理成绩百分制作为样本,按成绩分成5组[50,60,[60,70,[70,80,[80,90,[90,100],频率分布直方图如图所示,成绩落在[7080中的人数为
20.1求a和n的值;2根据样本估计总体的思想,估计该校高二学生物理成绩的平均数和中位数m;3成绩在80分以上含80分为优秀,样本中成绩落在[50,80中的男、女生人数比为1∶2,成绩落在[80,100中的男、女生人数比为3∶2,完成2×2列联表,并判断能否在犯错误的概率不超过
0.05的前提下认为物理成绩优秀与性别有关.男生女生合计优秀不优秀合计附参考公式和数据K2=,PK2≥k
00.
500.
050.
0250.005k
00.
4553.
8415.
0247.879[解析]1由题意得10a=1-
0.005+
0.01+
0.015+
0.02×10=
0.5,解得a=
0.05,则n==
40.2由频率分布直方图可知各组的频率分别为
0.05,
0.2,
0.
50.
150.1,所以=55×
0.05+65×
0.2+75×
0.5+85×
0.15+95×
0.1=
75.5,m-70×
0.05=
0.5-
0.05+
0.2,得m=
75.3由频率分布直方图可知成绩优秀的人数为40×
0.015+
0.01×10=10,则不优秀的人数为40-10=
30.所以优秀的男生为6人,女生为4人;不优秀的男生为10人,女生为20人.所以2×2列联表如下男生女生总计优秀6410不优秀102030总计162440所以K2=≈
2.222<
3.841,所以在犯错误的概率不超
0.05的前提下不能认为物理成绩优秀与性别有关.。