还剩9页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
第4课时线性回归分析与统计案例1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r如下表甲乙丙丁r-
0.82-
0.78-
0.69-
0.85则哪位同学的试验结果体现A,B两变量有更强的线性相关性 A.甲 B.乙C.丙D.丁答案 D2.2018·湖北七市联考广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x和销售额y进行统计,得到统计数据如下表单位万元广告费x23456销售额y2941505971由上表可得回归方程为=
10.2x+,据此模型,预测广告费为10万元时销售额约为 A.
101.2万元B.
108.8万元C.
111.2万元D.
118.2万元答案 C解析 根据统计数据表,可得=×2+3+4+5+6=4,=×29+41+50+59+71=50,而回归直线=
10.2x+经过样本点的中心4,50,∴50=
10.2×4+,解得=
9.2,∴回归方程为=
10.2x+
9.2,∴当x=10时,=
10.2×10+
9.2=
111.2,故选C.3.2018·赣州一模以下四个命题
①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③在回归直线方程=
0.2x+12中,当解释变量x每增加1个单位时,预报变量平均增加
0.2个单位;
④分类变量X与Y,对它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.其中真命题为 A.
①④B.
②④C.
①③D.
②③答案 D解析
①为系统抽样;
④分类变量X与Y,对它们的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大.4.下面是一个2×2列联表y1y2总计x1a2173x2222547合计b46120其中a,b处填的值分别为 A.94 72B.52 50C.52 74D.74 52答案 C解析 由a+21=73,得a=52,a+22=b,得b=
74.故选C.5.2018·湖南衡阳联考甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表甲乙丙丁r
0.
820.
780.
690.85m106115124103则哪位同学的试验结果体现A,B两变量有更强的线性相关性 A.甲B.乙C.丙D.丁答案 D解析 r越大,m越小,线性相关性越强.故选D.6.2018·衡水中学调研以下四个命题中,真命题是 A.对分类变量x与y的随机变量K2的观测值k来说,k越小,判断“x与y有关系”的把握程度越大B.两个随机变量的线性相关性越强,相关系数的绝对值越接近于0C.若数据x1,x2,x3,…,xn的方差为1,则2x1,2x2,2x3,…,2xn的方差为2D.在回归分析中,可用相关指数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好答案 D解析 对于A,对分类变量x与y的随机变量K2的观测值k来说,k越大,判断“x与y有关系”的把握程度越大,故A错误;对于B,两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,故B错误;对于C,若数据x1,x2,x3,…,xn的方差为1,则2x1,2x2,2x3,…,2xn的方差为4,故C错误;对于D,根据离散变量的线性相关及相关指数的有关知识可知D正确.7.2015年年度史诗大剧《芈月传》风靡大江南北,影响力不亚于以前的《甄嬛传》.某记者调查了大量《芈月传》的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在[10,14],[15,19],[20,24],[25,29][30,34]的爱看比例分别为10%,18%,20%,30%,t%.现用这5个年龄段的中间值代表年龄段,如12代表[10,14],17代表[15,19],根据前四个数据求得爱看比例y关于x的线性回归方程为y=kx-
4.68%,由此可推测t的值为 A.33B.35C.37D.39答案 B解析 依题意,x=×12+17+22+27=
19.5,y=×10%+18%+20%+30%=
19.5%,又∵回归直线必过点x,y,∴
19.5%=k×
19.5-
4.68%,解得k=,∴当x=32时,×32-
4.68%=35%,∴t≈
35.8.2018·广西南宁月考某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下列联表偏爱蔬菜偏爱肉类合计50岁以下481250岁以上16218合计201030则可以说其亲属的饮食习惯与年龄有关的把握为 附K2=.PK2≥k
00.
150.
100.
050.
0250.
0100.
0050.001k
02.
0722.
7063.
8415.
0246.
6357.
87910.828A.90%B.95%C.99%D.
99.9%答案 C解析 由2×2列联表知,K2==
10.∵K
26.635,K
210.828,∴有99%的把握认为其亲属的饮食习惯与年龄有关.9.2017世界特色魅力城市200强新鲜出炉,包括黄山市在内的28个中国城市入选,美丽的黄山风景和人文景观迎来众多宾客.现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在黄山旅游节期间,随机抽取了100人,得如下所示的列联表赞成“自助游”不赞成“自助游”合计男性301545女性451055合计7525100参照公式,得到的正确结论是 A.有
99.5%以上的把握认为“赞成‘自助游’与性别无关”B.有
99.5%以上的把握认为“赞成‘自助游’与性别有关”C.在犯错误的概率不超过
0.1的前提下,认为“赞成‘自助游’与性别无关”D.在犯错误的概率不超过
0.1的前提下,认为“赞成‘自助游’与性别有关”参考公式K2=,其中n=a+b+c+d.PK2≥k
00.
150.
100.
050.
0250.
0100.
0050.001k
02.
0722.
7063.
8415.
0246.
6357.
87910.828答案 D解析 将2×2列联表中的数据代入计算,得K2=≈
3.030,∵
2.
7063.
0303.841,∴在犯错误的概率不超过
0.1的前提下,可以认为“赞成‘自助游’与性别有关”.10.某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如下表x681012y2356则y对x的线性回归直线方程为 A.=
2.3x-
0.7B.=
2.3x+
0.7C.=
0.7x-
2.3D.=
0.7x+
2.3相关公式=,=y-x答案 C解析 ∵xiyi=6×2+8×3+10×5+12×6=158,x==9,y==
4.∴==
0.7,=4-
0.7×9=-
2.
3.故线性回归直线方程为=
0.7x-
2.
3.11.在一次考试中,5名学生的数学和物理成绩如下表已知学生的数学和物理成绩具有线性相关关系学生的编号i12345数学成绩x8075706560物理成绩y7066686462现已知其线性回归方程为=
0.36x+,则根据此线性回归方程估计数学得90分的同学的物理成绩为________四舍五入到整数.答案 73解析 ==70,==66,所以66=
0.36×70+,解得=
40.
8.所以
0.36×90+
40.8=
73.2≈
73.12.某工厂为了对一种新研发的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据单价x元456789销量y件908483807568由表中数据,求得线性回归方程为=-4x+.若在这些样本点中任取一点,则它在回归直线左下方的概率为________.答案 解析 由表中数据得x=
6.5,y=80,由y=-4x+,得=106,故线性回归方程为=-4x+
106.将4,90,5,84,6,83,7,80,8,75,9,68分别代入回归方程,可知有6个基本事件,因84-4×5+106=86,68-4×9+106=70,故5,84和9,68在直线的左下方,满足条件的只有2个,故所求概率为=.13.已知某学校的特长班有50名学生,其中有体育生20名,艺术生30名,在学校组织的一次体检中,该班所有学生进行了心率测试,心率全部介于50次/分到75次/分之间,现将数据分成五组,第一组[50,55,第二组[55,60,…,第五组[70,75],按上述分组方法得到的频率分布直方图如图所示.因为学习专业的原因,体育生常年进行系统的身体锻炼,艺术生则很少进行系统的身体锻炼,若前两组的学生中体育生有8名.1根据频率分布直方图及题设数据完成下列2×2列联表.心率小于60次/分心率不小于60次/分合计体育生20艺术生30合计502根据1中表格数据计算可知,________填“有”或“没有”
99.5%的把握认为“心率小于60次/分与常年进行系统的身体锻炼有关”.附K2=,其中n=a+b+c+d.PK2≥k
00.
150.
100.
050.
0250.
0100.
0050.001k
02.
0722.
7063.
8415.
0246.
6357.
87910.828答案 1见解析 2有关解析 1根据频率分布直方图可知,前两组的学生总数为
0.032+
0.08×5×50=10,又前两组的学生中体育生有8名,所以前两组的学生中艺术生有2名,故2×2列联表如下心率小于60次/分心率不小于60次/分合计体育生81220艺术生22830合计1040502由1中数据知,K2=≈
8.
3337.879,故有
99.5%的把握认为“心率小于60次/分与常年进行系统的身体锻炼有关”.14.2018·山东日照一模某学校高三年级有学生500人,其中男生300人,女生200人.为了研究学生的数学成绩是否与性别有关,现采用分层抽样的方法,从中抽取了100名学生,先统计了他们期中考试的数学分数,然后按性别分为男、女两组,再将两组学生的分数分成5组[100,110,[110,120,[120,130,[130,140,[140,150]分别加以统计,得到如图所示的频率分布直方图.1从样本中分数低于110分的学生中随机抽取两人,求这两人恰好为一男一女的概率;2若规定分数不低于130分的学生为“数学尖子生”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“数学尖子生与性别有关”.附K2=PK2≥k
00.
100.
050.
0100.
0050.001k
02.
7063.
8416.
6357.
87910.828答案 1 2有关解析 1由已知得,抽取的100名学生中,男生60名,女生40名.分数低于110分的学生中,男生有60×
0.05=3人,记为A1,A2,A3;女生有40×
0.05=2人,记为B1,B
2.从中随机抽取两名学生,所有的可能结果共有10种,它们是A1,A2,A1,A3,A2,A3,A1,B1,A1,B2,A2,B1,A2,B2,A3,B1,A3,B2B1,B2;其中两名学生恰好为一男一女的可能结果共有6种,它们是A1,B1,A1,B2,A2,B1,A2,B2,A3,B1,A3,B2.∴所求概率为P==.2由频率分布直方图可知,在抽取的100名学生中,分数不低于130分的男生人数为60×
0.25=15,分数不低于130分的女生人数为40×
0.4=16,据此可得2×2列联表如下数学尖子生非数学尖子生合计男生154560女生162440合计3169100∴K2=≈
2.
5252.706,∴没有90%的把握认为“数学尖子生与性别有关”.15.2017·四川广元二诊某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料日期12月1日12月2日12月3日12月4日12月5日温差x℃101113128发芽数y颗2325302616该农科所确定的研究方案是先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.1求选取的2组数据恰好是不相邻两天数据的概率;2若选取的是12月1日与12月5日的数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程=x+;3若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗.则认为得到的线性回归方程是可靠的.试问2中所得到的线性回归方程是可靠的吗?附回归直线的斜率和截距的最小二乘估计公式分别为答案 1 2=x-3 3可靠解析 1设“选取的2组数据恰好是不相邻两天的数据”为事件A.从5组数据中选取2组数据共有10种情况1,2,1,3,1,4,1,5,2,3,2,4,2,5,3,4,3,5,4,5,其中数据为12月份的日期数.每种情况都是等可能出现的,事件A包括的基本事件有6种.∴PA==.∴选取的2组数据恰好是不相邻两天数据的概率是.2由数据可得==12,==
27.∴==,=-=27-×12=-
3.∴y关于x的线性回归方程为=x-
3.3当x=10时,=×10-3=22,|22-23|2;同理,当x=8时,=×8-3=17,|17-16|
2.∴2中所得到的线性回归方程是可靠的.16.2018·河北唐山模拟某市春节期间7家超市的广告费支出xi万元和销售额yi万元数据如下超市ABCDEFG广告费支出xi1246111319销售额yi193240445253541若用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;2用二次函数回归模型拟合y与x的关系,可得回归方程y∧=-
0.17x2+5x+20,经计算二次函数回归模型和线性回归模型的R2分别约为
0.92和
0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出3万元时的销售额.参考数据及公式x=8,y=42,xiyi=2794,xi2=708,=,=y-x.答案 1=
1.7x+
28.4
233.47解析 1===
1.7,=y-x=42-
1.7×8=
28.
4.∴y关于x的线性回归方程是=
1.7x+
28.
4.2∵
0.
750.92,∴二次函数回归模型更合适.当x=3万元时,=-
0.17×9+5×3+20=
33.47,预测A超市销售额为
33.47万元.1.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵截距是a,那么必有 A.b与r的符号相同B.a与r的符号相同C.b与r的符号相反D.a与r的符号相反答案 A2.下列说法
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
②设有一个回归方程=3-5x,变量x增加一个单位时,y平均增加5个单位;
③回归直线=x+必过点,;
④在一个2×2列联表中,由计算得K2的观测值k=
13.079,则在犯错误的概率不超过
0.001的前提下认为这两个变量间有关系.其中错误的个数是 A.0B.1C.2D.3本题可以参考独立性检验临界值表PK2≥k
0.
50.
400.
250.
150.
100.
050.
0250.
0100.
0050.001k
0.
4550.
7081.
3232.
0722.
7063.
8415.
0246.
6357.
87910.828答案 B解析 只有
②错误,应该是y平均减少5个单位.3.2018·湖南衡阳模拟根据“2015年国民经济和社会发展统计公报”中公布的数据,从2011年到2015年,我国的第三产业在GDP中的比重如下年份20112012201320142015年份代码x12345第三产业比重y/%
44.
345.
546.
948.
150.51在所给坐标系中作出数据对应的散点图;2建立第三产业在GDP中的比重y关于年份代码x的回归方程;3按照当前的变化趋势,预测2018年我国第三产业在GDP中的比重.附回归直线=+x的斜率和截距的最小二乘估计分别为=,=y-x.答案 1见解析 2=
1.5x+
42.56
354.56%解析 1数据对应的散点图如图所示.2x=3,y=
47.06,===
1.5,=y-x=
42.56,所以回归直线方程为=
1.5x+
42.
56.3代入2018年的年份代码x=8,得=
1.5×8+
42.56=
54.56,所以按照当时的变化趋势,预计到2018年,我国第三产业在GDP中的比重将达到
54.56%.4.假设关于某种设备的使用年限x年与所支出的维修费用y万元有如以下的统计数据;x年23456y万元
2.
23.
85.
56.
57.01求,;2对x,y进行线性相关性检验;3如果x与y具有线性相关关系,求出回归直线方程;4估计使用年限为10年时,维修费用约是多少?答案 1=4,=5 2略 3=
1.23x+
0.08
412.38万元解析 1==4,==
5.所以r==≈
0.
987.因为
0.
9870.75,所以x与y之间具有很强的线性相关关系.4当x=10时,=
1.23×10+
0.08=
12.38,即估计使用年限为10年时,维修费用约为
12.38万元.5.2018·广东韶关期末某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示x为该商品的进货量,y为销售天数.x/吨234568911y/天123345681根据上表数据在下图所示的网格中绘制散点图;2根据上表提供的数据,求出y关于x的线性回归方程=x+;3根据2中的计算结果,若该商店准备一次性进货24吨,预测需要销售的天数.参考公式和数据=,=y-x;xi2=356,xiyi=
241.答案 1略 2=x- 317天解析 1散点图如图所示2依题意,得x=×2+3+4+5+6+8+9+11=6,y=×1+2+3+3+4+5+6+8=4,又xi2=356,xiyi=241,所以===,=4-×6=-,故线性回归方程为=x-.3由2知,当x=24时,=×24-≈17,故若该商店一次性进货24吨,则预计需要销售17天.。