还剩11页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
2019-2020年高考总复习文数(北师大版)讲义第11章第04节变量间的相关关系与统计案例Word版含答案考点高考试题考查内容核心素养线性回归分析xx·全国卷Ⅰ·T19·12分相关系数、均值、标准差数据分析独立性检验xx·全国卷Ⅱ·T18·12分独立性检验、相互独立事件的概率、直方图数据分析线性回归方程xx·全国卷Ⅲ·T18·12分利用线性回归方程解决实际问题数据分析xx·全国卷Ⅰ·T19·12分回归直线方程的求法和应用数据分析命题分析本节是高考考查的热点,主要考查回归分析,回归直线方程的求法及应用,独立性检验.多以解答题形式出现.3线性相关若两个变量x和y的散点图中,所有点看上去都在__一条直线__附近波动,则称变量间是线性相关的.此时,我们可以用__一条直线__来近似.4非线性相关若散点图上所有点看上去都在__某条曲线不是一条直线__附近波动,则称此相关为非线性相关的.此时,可以用__一条曲线__来拟合.5不相关如果所有的点在散点图中__没有显示任何关系__,则称变量间是不相关的.2.线性回归方程1最小二乘法求回归直线使得样本数据中的点到它的__距离的平方和__最小,即求Q=yi-a+bxi2的最小值,而得到回归直线方程的方法叫最小二乘法.2回归方程两个具有线性相关关系的变量的一组数据x1,y1,x2,y2,…,xn,yn.其回归方程为y=a+bx,则其中,a、b是线性回归方程的__系数__.3.相关系数r1r==.2当r>0时,称两个变量__正相关__;当r<0时,称两个变量__负相关__;当r=0时,称两个变量__不相关__.r的绝对值越接近于1,表明两个变量之间的线性相关程度越高;r的绝对值越接近于0时,表明两个变量之间的线性相关程度越低.4.独立性检验12×2列联表设A,B为两个变量,每一个变量都可以取两个值,变量A A1,A2=;变量B B1,B2=,通过观察得到下表所示的数据 BA B1B2总计A1aba+bA2cdc+d总计a+cb+dn=a+b+c+d2独立性判断方法选取统计量!!! χ2= ###,用它的大小来检验变量之间是否独立.
①当χ2__≤
2.706__时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;
②当χ2__>
2.706__时,有90%的把握判定变量A,B有关联;
③当χ2__>
3.841__时,有95%的把握判定变量A,B有关联;
④当χ2__>
6.635__时,有99%的把握判定变量A,B有关联.提醒1.辨明三个易误点1回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过,点,可能所有的样本数据点都不在直线上.2利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值期望值.3虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法求解回归方程的关键是确定回归系数a,b,因求解b的公式计算量太大,一般题目中给出相关的量,如,,,iyi等,便可直接代入求解.充分利用回归直线过样本中心点,,即有=b+a,可确定a.1.判断下列结论的正误正确的打“√”,错误的打“×”1相关关系与函数关系都是一种确定性的关系,也是一种因果关系. 2利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示. 3通过回归方程y=bx+a可以估计和观测变量的取值和变化趋势. 4任何一组数据都对应着一个回归直线方程. 5事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大. 答案1× 2√ 3√ 4× 5√2.xx·湖北卷已知变量x和y满足关系y=-
0.1x+1,变量y与z正相关.下列结论中正确的是 A.x与y负相关,x与z负相关B.x与y正相关,x与z正相关C.x与y正相关,x与z负相关D.x与y负相关,x与z正相关解析选A 由回归直线方程定义知,x与y负相关.由y与z正相关,可设其回归直线为y=kz+b,且k>0,所以x=-10kz-10b+10,则x与z负相关.3.教材习题改编已知x,y的取值如下表,从散点图可以看出y与x之间有线性相关关系,且回归方程为y=
0.95x+a,则a= x0134y
2.
24.
34.
86.7A.
3.25 B.
2.6 C.
2.2 D.0解析选B 由已知得=2,=
4.5,因为回归方程经过点,,所以a=
4.5-
0.95×2=
2.6.4.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 A.若χ2>
6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D.以上三种说法都不正确解析选C 根据独立性检验的思想知C项正确.相关关系的判断[明技法]判定两个变量正、负相关性的方法1画散点图点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.2相关系数r>0时,正相关;r<0时,负相关.3线性回归方程中b>0时,正相关;b<0时,负相关.[提能力]【典例】1四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论
①y与x负相关且y=
2.347x-
6.423;
②y与x负相关且y=-
3.476x+
5.648;
③y与x正相关且y=
5.437x+
8.493;
④y与x正相关且y=-
4.326x-
4.578.其中一定不正确的结论的序号是 A.
①② B.
②③C.
③④D.
①④2x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关系数的平方为r,用y=bx+a拟合时的相关系数的平方为r,则r>r;
③x、y之间不能建立线性回归方程.解析1b>0,正相关;b<0,负相关.2由相关关系定义知
①②正确.答案1D 2
①②[刷好题]1.xx·资阳模拟在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是 A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%解析选B 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.2.变量X与Y相对应的一组数据为101,
11.32,
11.83,
12.54,135;变量U与V相对应的一组数据为105,
11.34,
11.83,
12.52,131.r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则 A.r2<r1<0 B.0<r2<r1C.r2<0<r1D.r2=r1解析选C 变量Y随X的增大而增大,故Y与X正相关,所以r1>0;变量V随U的增大而减小,故V与U负相关,即r2<0,所以r2<0<r1.线性回归分析[析考情]回归方程的求解与运用计算量大,主要是通过最小二乘法求解回归直线方程,并进行相应的估计预测,题型既有小题也有解答题,难度不大,另外非线性回归分析问题也应引起足够重视.[提能力]【典例】1xx·山东卷为了研究某班学生的脚长x单位厘米和身高y单位厘米的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为y=bx+a.已知i=225,i=1600,b=
4.该班某学生的脚长为24,据此估计其身高为 A.160 B.163 C.166 D.170解析选C ∵i=225,∴=i=
22.5.∵i=1600,∴=i=160.又b=4,∴a=-b=160-4×
22.5=70.∴回归直线方程为y=4x+70.将x=24代入上式得y=4×24+70=
166.故选C.2xx·重庆卷随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款年底余额如下表年份xxxxxxxxxx时间代号t12345储蓄存款y千亿元567810
①求y关于t的回归方程y=bt+a;
②用所求回归方程预测该地区xx年t=6的人民币储蓄存款.解
①列表计算如下itiyittiyi11515226412337921448163255102550∑153655120这里n=5,=i==3,=i==
7.2.又ltt=-n2=55-5×32=10,lty=iyi-n=120-5×3×
7.2=12,从而b===
1.2,a=-b=
7.2-
1.2×3=
3.6,故所求回归方程为y=
1.2t+
3.6.
②将t=6代入回归方程可预测该地区xx年的人民币储蓄存款为y=
1.2×6+
3.6=
10.8千亿元.[悟技法]1.回归直线方程中系数的2种求法1利用公式,求出回归系数b,a.2待定系数法利用回归直线过样本点中心求系数.2.回归分析的2种策略1利用回归方程进行预测把回归直线方程看作一次函数,求函数值.2利用回归直线判断正、负相关决定正相关还是负相关的是回归系数r.[刷好题]xx·全国卷Ⅰ某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x单位千元对年销售量y单位t和年利润z单位千元的影响.对近8年的年宣传费xi和年销售量yii=12,…,8数据作了初步处理,得到下面的散点图及一些统计量的值.xi-2wi-2xi-yi-wi-yi-
46.
65636.
8289.
81.
61469108.8表中wi=,=i.1根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?给出判断即可,不必说明理由2根据1的判断结果及表中数据,建立y关于x的回归方程;3已知这种产品的年利润z与x,y的关系为z=
0.2y-x.根据2的结果回答下列问题ⅰ年宣传费x=49时,年销售量及年利润的预报值是多少?ⅱ年宣传费x为何值时,年利润的预报值最大?附对于一组数据u1,v1,u2,v2,…,un,vn,其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β=,α=-β.解1由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.2令w=,先建立y关于w的线性回归方程.由于d===68,c=-d=563-68×
6.8=
100.6,所以y关于w的线性回归方程为y=
100.6+68w,因此y关于x的回归方程为y=
100.6+68.3ⅰ由2知,当x=49时,年销售量y的预报值y=
100.6+68=
576.6,年利润z的预报值z=
576.6×
0.2-49=
66.32.ⅱ根据2的结果知,年利润z的预报值z=
0.
2100.6+68-x=-x+
13.6+
20.12.所以当==
6.8,即x=
46.24时,z取得最大值.故年宣传费为
46.24千元时,年利润的预报值最大.独立性检验[析考情]近几年高考中对独立性检验的考查频率明显下降,题目多以解答题的形式出现,一般为容易题,多与概率、统计等内容综合考查.[提能力]【典例】xx·全国卷Ⅱ海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量单位kg,其频率分布直方图如下1设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率;2填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50kg箱产量≥50kg旧养殖法新养殖法3根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值精确到
0.01.附Pχ2≥k
0.
0500.
0100.001k
3.
8416.
63510.828,χ2=.解1记B表示事件“旧养殖法的箱产量低于50kg”,C表示事件“新养殖法的箱产量不低于50kg”.由题意知PA=PBC=PBPC.旧养殖法的箱产量低于50kg的频率为
0.012+
0.014+
0.024+
0.034+
0.040×5=
0.62,故PB的估计值为
0.62.新养殖法的箱产量不低于50kg的频率为
0.068+
0.046+
0.010+
0.008×5=
0.66,故PC的估计值为
0.66.因此,事件A的概率估计值为
0.62×
0.66=
0.4092.2根据箱产量的频率分布直方图得列联表箱产量50kg箱产量≥50kg旧养殖法6238新养殖法3466χ2=≈
15.705.由于
15.
7056.635,故有99%的把握认为箱产量与养殖方法有关.3因为新养殖法的箱产量频率分布直方图中,箱产量低于50kg的直方图面积为
0.004+
0.020+
0.044×5=
0.
340.5,箱产量低于55kg的直方图面积为
0.004+
0.020+
0.044+
0.068×5=
0.
680.5,故新养殖法产量的中位数的估计值为50+≈
52.35kg.[悟技法]1.比较几个分类变量有关联的可能性大小的方法1通过计算χ2的大小判断χ2越大,两变量有关联的可能性越大.2通过计算|ad-bc|的大小判断|ad-bc|越大,两变量有关联的可能性越大.2.独立性检验的一般步骤1根据样本数据制成2×2列联表.2根据公式χ2=计算χ2的观测值k.3比较k与临界值的大小关系,作统计推断.[刷好题]1.xx·衡阳联考2016年9月20日是第28个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名.1能否在犯错误的概率不超过
0.001的前提下,认为该地区学生常吃零食与患龋齿有关系?24名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率.附χ2=PK2≥k
00.
0100.
0050.001k
06.
6357.
87910.828解1由题意可得2×2列联表如下不常吃零食常吃零食总计不患龋齿60100160患龋齿140500640总计200600800根据2×2列联表中数据,得χ2的观测值为k=≈
16.667>
10.828.∴能在犯错误的概率不超过
0.001的前提下,认为该地区学生常吃零食与患龋齿有关系.2设其他工作人员为丙和丁,4人分组的所有情况如下表.小组123456收集数据甲乙甲丙甲丁乙丙乙丁丙丁处理数据丙丁乙丁乙丙甲丁甲丙甲乙由表可知,分组的情况共有6种,工作人员甲负责收集数据且工作人员乙负责处理数据的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P==.2.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分采用百分制,剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.分数段[4050[5060[6070[7080[8090
[90100]男39181569女645101321估计男、女生各自的平均分同一组数据用该组区间中点值作代表,从计算结果看,数学成绩与性别是否有关;2规定80分以上为优分含80分,请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.优分非优分总计男生女生总计100附表及公式Pχ2≥k
00.
1000.
0500.
0100.001k
02.
7063.
8416.
63510.828χ2=解1男=45×
0.05+55×
0.15+65×
0.3+75×
0.25+85×
0.1+95×
0.15=
71.5,女=45×
0.15+55×
0.1+65×
0.125+75×
0.25+85×
0.325+95×
0.05=
71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.2由频数分布表可知在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下优分非优分总计男生154560女生152540总计3070100可得χ2=≈
1.79,因为
1.
792.706,所以没有90%以上的把握认为“数学成绩与性别有关”.。