还剩34页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
2019-2020年高中数学第一章统计案例学案新人教A版选修1-2_
1.1回归分析的基本思想及其初步应用线性回归方程[导入新知]1.回归分析1函数关系是一种确定性关系,而相关关系是一种非确定性关系,即自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系.2回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报.2.线性回归模型1线性回归模型y=bx+a+e,其中a和b是模型的未知参数,e称为随机误差.自变量x称为解释变量,因变量y称为预报变量.2在回归方程=x+中,==,=-.其中=i,=i,称为样本点的中心.[化解疑难]线性回归方程中系数的含义1是回归直线的斜率的估计值,表示x每增加一个单位,y的平均增加单位数,而不是增加单位数.2当>0时,变量y与x具有正的线性相关关系;当<0时,变量y与x具有负的线性相关关系.线性回归分析[导入新知]1.残差分析1残差样本点xn,yn的随机误差ei=yi-bxi-a,其估计值为i=yi-i=yi-xi-,i称为相应于点xi,yi的残差residual.以上i=12,…,n2残差图作图时,纵坐标为残差,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图.3残差分析残差分析即通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果,其步骤为计算残差——画残差图——在残差图中分析残差特性.残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.2.相关指数我们可以用相关指数R2来刻画回归的效果,其计算公式是R2=1-.R2越大,残差平方和yi-i2越小,即模型的拟合效果越好;R2越小,残差平方和yi-i2越大,即模型的拟合效果越差.在线性回归模型中,R2的取值范围为
[01],R2表示解释变量对于预报变量变化的贡献率,1-R2表示随机误差对于预报变量变化的贡献率.R2越接近于1,表示回归的效果越好.[化解疑难]残差分析的注意点在残差图中,可疑数据的特征表现为1个别样本点的残差过大,即大多数的残差点比较均匀地落在水平的带状区域中,而个别残差点偏离该区域过于明显,需要确认在采集这些样本点的过程中是否有人为的错误,如果采集数据有错误,那么需要纠正,然后重新利用线性回归模型拟合数据;如果数据采集没有错误,那么需要寻找其他原因.2残差图有异常,即残差呈现不随机的规律性,此时需要考虑所采用的线性回归模型是否合适.线性回归分析 [例1] 炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,因此必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时,钢水的含碳量x与冶炼时间y从炉料熔化完毕到出钢的时间的一列数据,如下表所示x
0.01%104180190177147134150191204121ymin1002002101851551351702052351251作出散点图,你能从散点图中发现含碳量与冶炼时间的一般规律吗?2求回归方程;3预测当钢水含碳量为160时,应冶炼多少分钟?[解] 1以x轴表示含碳量,y轴表示冶炼时间,作散点图如图所示从图中可以看出,各点散布在一条直线附近,即它们线性相关.2列出下表,并用科学计算器进行计算i12345678910xi104180190177147134150191204121yi100200210185155135170205235125xiyi10400360003990032745227851809025500391554794015125=
159.8,=172,=265448,iyi=287640设所求的回归方程为=x+,=≈
1.267,=-≈-
30.
47.所以所求的回归方程为=
1.267x-
30.
47.3当x=160时,=
1.267×160-
30.47≈173min,即冶炼时间大约为173min.[类题通法]求线性回归方程的步骤1列表表示xi,yi,xiyi;2计算,,iyi;3代入公式计算,的值;4写出回归直线方程.[活学活用]某种产品的广告费支出x单位百万元与销售额y单位百万元之间有如下对应数据x24568y30406050701试根据数据预报广告费支出1000万元的销售额;2若广告费支出1000万元的实际销售额为8500万元,求误差.解1从画出的散点图图略可看出,这些点在一条直线附近,可以建立销售额y对广告费支出x的线性回归方程.由题中数据计算可得=5,=50,由公式计算得=
6.5,=
17.5,所以y对x的线性回归方程为=
6.5x+
17.
5.因此,对于广告费支出为1000万元即10百万元,由线性回归方程可以预报销售额为=
6.5×10+
17.5=
82.5百万元.28500万元即85百万元,实际数据与预报值的误差为85-
82.5=
2.5百万元.残差分析[例2] 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下编号12345678910零件数x/个102030405060708090100加工时间y/分6268758189951021081151221建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;2你认为这个模型能较好地刻画零件数和加工时间的关系吗?[解] 1根据表中数据画出散点图,如图所示.由图可看出,这些点在一条直线附近,可以用线性回归模型来拟合数据.计算得加工时间对零件数的线性回归方程为=
0.668x+
54.
93.残差数据如下表编号12345残差
0.39-
0.
290.03-
0.
650.67编号678910残差-
0.
010.31-
0.37-
0.
050.272以零件数为横坐标,残差为纵坐标画出残差图如图所示.由图可知,残差点分布较均匀,即用上述回归模型拟合数据效果很好.但需注意,由残差图可以看出,第4个样本点和第5个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.[类题通法]残差分析应注意的问题利用残差分析研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后通过图形来分析残差特性,用残差1,2,…,n来判断原始数据中是否存在可疑数据,用R2来刻画模型拟合的效果.[活学活用]已知某种商品的价格x元与需求量y件之间的关系有如下一组数据x1416182022y1210753求y关于x的回归直线方程,并说明回归模型拟合效果的好坏.解=14+16+18+20+22=18,=12+10+7+5+3=
7.4,=142+162+182+202+222=1660,iyi=14×12+16×10+18×7+20×5+22×3=620,所以===-
1.15,=
7.4+
1.15×18=
28.1,所以所求回归直线方程是=-
1.15x+
28.
1.列出残差表yi-i
00.3-
0.4-
0.
10.2yi-
4.
62.6-
0.4-
2.4-
4.4所以yi-i2=
0.3,yi-2=
53.2,R2=1-≈
0.994,所以回归模型的拟合效果很好.非线性回归分析[例3] 在一次抽样调查中测得样本的5个样本点,数值如下表x
0.
250.5124y1612521试建立y与x之间的回归方程.[解] 作出变量y与x之间的散点图如图所示.由图可知变量y与x近似地呈反比例函数关系.设y=,令t=,则y=kt.由y与x的数据表可得y与t的数据表t
4210.
50.25y1612521作出y与t的散点图如图所示.由图可知y与t呈近似的线性相关关系.又=
1.55,=
7.2,iyi=
94.25,=
21.3125,==≈
4.1344,=-=
7.2-
4.1344×
1.55≈
0.8,∴=
4.1344t+
0.
8.所以y与x的回归方程是=+
0.
8.[类题通法]非线性回归分析的步骤非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数幂函数、指数函数、对数函数等图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为[活学活用]某电容器充电后,电压达到100V,然后开始放电,由经验知道,此后电压U随时间t变化的规律用公式U=Aebtb<0表示,现测得时间ts时的电压UV如下表t/s012345678910U/V100755540302015101055试求电压U对时间t的回归方程.提示对公式两边取自然对数,把问题转化为线性回归分析问题解对U=Aebt两边取对数得lnU=lnA+bt,令y=lnU,a=lnA,x=t,则y=a+bx,y与x的数据如下表x012345678910y
4.
64.
34.
03.
73.
43.
02.
72.
32.
31.
61.6根据表中数据画出散点图,如图所示,从图中可以看出,y与x具有较好的线性相关关系,由表中数据求得=5,≈
3.045,由公式计算得≈-
0.313,=-=
4.61,所以y对x的线性回归方程为=-
0.313x+
4.
61.所以ln=-
0.313t+
4.61,即=e-
0.313t+
4.61=e-
0.313t·e
4.61,因此电压U对时间t的回归方程为=e-
0.313t·e
4.
61. [典例] 下列现象的线性相关程度最高的是 A.某商店的职工人数与商品销售额之间的相关系数为
0.87B.流通费用率与商业利润率之间的相关系数为-
0.94C.商品销售额与商业利润率之间的相关系数为
0.51D.商品销售额与流通费用率之间的相关系数为
0.81[解析] |r|越接近于1,相关程度越高.[答案] B[易错防范]1.本题易错误地认为r越接近于1,相关程度越高,从而误选A.2.变量之间线性相关系数r具有如下性质1r2≤1,故变量之间线性相关系数r的取值范围为[-11].2|r|越大,变量之间的线性相关程度越高;|r|越接近0,变量之间的线性相关程度越低.3当r>0时,两个变量的值总体上呈现出同时增减的趋势,此时称两个变量正相关;当r<0时,一个变量增加,另一个变量有减少的趋势,称两个变量负相关;当r=0时,称两个变量线性不相关.[成功破障]变量X与Y相对应的一组数据为101,
11.32,
11.83,
12.54,135;变量U与V相对应的一组数据为105,
11.34,
11.83,
12.52,131.r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则 A.r2<r1<0 B.0<r2<r1C.r2<0<r1D.r2=r1解析选C 对于变量X与Y而言,Y随X的增大而增大,故变量Y与X正相关,即r1>0;对于变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r2<
0.故r2<0<r
1.[随堂即时演练]1.湖北高考四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论
①y与x负相关且=
2.347x-
6.423;
②y与x负相关且=-
3.476x+
5.648;
③y与x正相关且=
5.437x+
8.493;
④y与x正相关且=-
4.326x-
4.
578.其中一定不正确的结论的序号是 A.
①② B.
②③C.
③④D.
①④解析选D
①中y与x负相关而斜率为正,不正确;
④中y与x正相关而斜率为负,不正确.2.关于回归分析,下列说法错误的是 A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B.线性相关系数可以是正的也可以是负的C.在回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关D.样本相关系数r∈-11解析选D 样本的相关系数应满足-1≤r≤
1.3.在研究气温和热茶销售杯数的关系时,若求得相关指数R2≈
0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.解析由相关指数R2的意义可知,R2≈
0.85表明气温解释了85%,而随机误差贡献了剩余的15%.答案85% 15%4.若施肥量xkg与小麦产量ykg之间的回归直线方程为=250+4x,当施肥量为50kg时,预计小麦产量为________.解析把x=50代入=250+4x,可求得=
450.答案450kg5.某工厂为了对新研究的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据单价x元
88.
28.
48.
68.89销量y件9084838075681求回归直线方程=x+,其中=-20,=-;2预计在今后的销售中,销量与单价仍然服从1中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?利润=销售收入-成本解1=8+
8.2+
8.4+
8.6+
8.8+9=
8.5,=90+84+83+80+75+68=80,从而=+20=80+20×
8.5=250,故=-20x+
250.2由题意知,工厂获得利润z=x-4y=-20x2+330x-1000=-202+
361.25,所以当x==
8.25时,zmax=
361.25元.即当该产品的单价定为
8.25元时,工厂获得最大利润.[课时达标检测]
一、选择题1.为了研究变量x和y的线性相关性,甲、乙两人分别利用线性回归方法得到回归直线l1和l2,已知两人计算过程中,分别相同,则下列说法正确的是 A.l1与l2一定平行B.l1与l2重合C.l1与l2相交于点,D.无法判断l1和l2是否相交解析选C 回归直线一定过样本点的中心,,故C正确.2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表甲乙丙丁R
20.
980.
780.
500.85建立的回归模型拟合效果最好的同学是 A.甲 B.乙 C.丙 D.丁解析选A 相关指数R2越大,表示回归模型的效果越好.3.设某大学的女生体重y单位kg与身高x单位cm具有线性相关关系.根据一组样本数据xi,yii=12,…,n,用最小二乘法建立的回归方程为=
0.85x-
85.71,则下列结论中不正确的是 A.y与x具有正的线性相关关系B.回归直线过样本点的中心,C.若该大学某女生身高增加1cm,则其体重约增加
0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为
58.79kg解析选D 回归方程中x的系数为
0.85>0,因此y与x具有正的线性相关关系,A正确;由回归方程系数的意义可知回归直线过样本点的中心,,B正确;依据回归方程中的含义可知,x每变化1个单位,相应变化约
0.85个单位,C正确;用回归方程对总体进行估计不能得到肯定结论,故D不正确.4.某产品的广告费用x与销售额y的统计数据如下表广告费用x万元4235销售额y万元49263954根据上表可得回归方程=x+中的为
9.4,据此模型预报广告费用为6万元时销售额为 A.
63.6万元B.
65.5万元C.
67.7万元D.
72.0万元解析选B 样本点的中心是
3.542,则=-=42-
9.4×
3.5=
9.1,所以回归直线方程是=
9.4x+
9.1,把x=6代入得=
65.
5.5.福建高考已知x与y之间的几组数据如下表x123456y021334假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据10和22求得的直线方程为y=b′x+a′,则以下结论正确的是 A.b′,a′B.b′,a′C.b′,a′D.b′,a′解析选C 由两组数据10和22可求得直线方程为y=2x-2,b′=2,a′=-
2.而利用线性回归方程的公式与已知表格中的数据,可求得===,=-=-×=-,所以b′,a′.
二、填空题6.在一组样本数据x1,y1,x2,y2,…,xn,ynn≥2,x1,x2,…,xn不全相等的散点图中,若所有样本点xi,yii=12,…,n都在直线y=x+1上,则这组样本数据的样本相关系数为________.解析根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为
1.答案17.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下父亲身高xcm174176176176178儿子身高ycm175175176177177则y对x的线性回归方程为________.解析设y对x的线性回归方程为=x+,由表中数据得=176,=176,=,=176-×176=88,所以y对x的线性回归方程为=x+
88.答案=x+888.关于x与y有如下数据x24568y3040605070为了对x,y两个变量进行统计分析,现有以下两种线性模型甲=
6.5x+
17.5,乙=7x+17,则________填“甲”或“乙”模型拟合的效果更好.解析设甲模型的相关指数为R,则R=1-=1-=
0.845;设乙模型的相关指数为R,则R=1-=
0.
82.因为
0.845>
0.82,即R>R,所以甲模型拟合效果更好.答案甲
三、解答题9.假设某设备的使用年限x年和所支出的维修费用y万元有如下的统计资料x23456y
2.
23.
85.
56.
57.0试求1y与x之间的回归方程;2当使用年限为10年时,估计维修费用是多少?解1根据表中数据作散点图,如图所示从散点图可以看出,样本点都集中分布在一条直线附近,因此y与x之间具有线性相关关系.利用题中数据得=2+3+4+5+6=4,=
2.2+
3.8+
5.5+
6.5+
7.0=5,xiyi=2×
2.2+3×
3.8+4×
5.5+5×
6.5+6×
7.0=
112.3,x=22+32+42+52+62=90,所以===
1.23,=-=5-
1.23×4=
0.08,∴线性回归方程为=
1.23x+
0.
08.2当x=10时,=
1.23×10+
0.08=
12.38万元,即当使用10年时,估计维修费用是
12.38万元.10.在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为价格x/元1416182022需求量y/件5650434137求出y关于x的线性回归方程,并说明拟合效果的好坏.参考数据x=1660,xiyi=3992解从作出的散点图图略可看出,这些点在一条直线附近,可用线性回归模型来拟合数据.由数据可得=18,=
45.
4.由计算公式得=-
2.35,=-=
87.
7.故y关于x的线性回归方程为=-
2.35x+
87.
7.列表yi-i
1.2-
0.1-
2.
40.31yi-
10.
64.6-
2.4-
4.4-
8.4所以yi-i2=
8.3,yi-2=
229.
2.相关指数R2=1-≈
0.
964.因为
0.964很接近于1,所以该模型的拟合效果好.1.2独立性检验的基本思想及其初步应用独立性检验的有关概念[导入新知]1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.2×2列联表假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表也称2×2列联表为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d3.等高条形图将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图.4.K2统计量为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量K2=,其中n=a+b+c+d为样本容量.5.独立性检验利用随机变量K2来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量独立性检验.[化解疑难]反证法原理与独立性检验原理的比较反证法原理——在假设H0下,如果推出一个矛盾,就证明了H0不成立.独立性检验原理——在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过小概率.独立性检验的步骤[导入新知]独立性检验的具体做法1根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查下表确定临界值k
0.PK2≥k
00.
500.
400.
250.
150.10k
00.
4550.
7081.
3232.
0722.706PK2≥k
00.
050.
0250.
0100.
0050.001k
03.
8415.
0246.
6357.
87910.8282利用公式K2=,计算随机变量K2的观测值k.3如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.[化解疑难]详析独立性检验1通过列联表或观察等高条形图判断两个分类变量之间有关系,属于直观判断,不足之处是不能给出推断“两个分类变量有关系”犯错误的概率,而独立性检验可以弥补这个不足.2列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,需要用独立性检验的方法确认所得结论在多大程度上适用于总体.列联表和等高条形图的应用[例1] 某学校对高三学生作了一项调查,发现在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.[解] 作列联表如下性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941020相应的等高条形图如图所示图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.[类题通法]细解等高条形图1绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;两列的数据对应不同的颜色.2等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显,就判断两个分类变量之间有关系.[活学活用]为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下父母吸烟父母不吸烟总计子女吸烟23783320子女不吸烟6785221200总计9156051520利用等高条形图判断父母吸烟对子女吸烟是否有影响?解等高条形图如下由图形观察可以看出子女吸烟者中父母吸烟的比例要比子女不吸烟者中父母吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.独立性检验的原理[例2] 打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据患心脏病未患心脏病总计每晚都打鼾30224254不打鼾2413551379总计5415791633根据列联表的独立性检验,能否在犯错误的概率不超过
0.001的前提下认为每晚都打鼾与患心脏病有关系?[解] 由列联表中的数据,得K2的观测值为k=≈
68.033>
10.
828.因此,在犯错误的概率不超过
0.001的前提下,认为每晚都打鼾与患心脏病有关系.[类题通法]解决独立性检验问题的思路解决一般的独立性检验问题,首先由题目所给的2×2列联表确定a,b,c,d,n的值,然后代入随机变量K2的计算公式求出观测值k,将k与临界值k0进行对比,确定有多大的把握认为“两个分类变量有关系”.[活学活用]某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.能否在犯错误的概率不超过
0.001的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系?解根据题目所给数据得如下2×2列联表合格品次品总计甲在生产现场9828990甲不在生产现场49317510总计1475251500由列联表中的数据,得K2的观测值为k=≈
13.097>
10.
828.因此,在犯错误的概率不超过
0.001的前提下,认为质量监督员甲在不在生产现场与产品质量好坏有关系. [典例] 12分某工厂有工人1000名,其中250名工人参加过短期培训称为A类工人,另外750名工人参加过长期培训称为B类工人.现用分层抽样的方法按A类、B类分两层从该工厂的工人中抽取100名工人,调查他们的生产能力此处生产能力指一天加工的零件数,结果如下表.表1A类工人生产能力的频数分布表生产能力分组[110120[120130[130140[140150人数8x32表2B类工人生产能力的频数分布表生产能力分组[110120[120130[130140[140150人数6y27181确定x,y的值;2完成下面2×2列联表,并回答能否在犯错误的概率不超过
0.001的前提下认为工人的生产能力与工人的类别有关系? 生产能力分组工人类别 [110130[130150总计A类工人B类工人总计附K2=,PK2≥k
00.
0500.
0100.001k
03.
8416.
63510.828[解题流程]2根据所给的数据可以完成列联表,如下表所示 生产能力分组工人类别 [110130[130150总计A类工人20525B类工人304575总计50501006分由列联表中的数据,得K2的观测值为[活学活用]电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?非体育迷体育迷总计男女总计附PK2≥k
00.
050.01k
03.
8416.635解由频率分布直方图可知,在抽取的100名观众中,“体育迷”有25名,“非体育迷”有75名,又已知100名观众中女性有55名,女“体育迷”有10名,所以男性有45名,男“体育迷”有15名,从而可完成2×2列联表,如下表非体育迷体育迷总计男301545女451055总计7525100由2×2列联表中的数据,得K2的观测值为k=≈
3.
030.因为
3.030<
3.841,所以没有充分的证据表明“体育迷”与性别有关.[随堂即时演练]1.观察下列各图,其中两个分类变量x,y之间关系最强的是 解析选D 在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选D.2.下面是一个2×2列联表y1y2总计x1a2173x222527总计b46则表中a,b处的值分别为 A.9496 B.5250C.5254D.5452解析选C 由得3.独立性检验所采用的思路是要研究A,B两类型变量彼此相关,首先假设这两类变量彼此________.在此假设下构造随机变量K2,如果K2的观测值较大,那么在一定程度上说明假设________.答案无关 不成立4.在吸烟与患肺病是否相关的判断中,有下面的说法
①若K2的观测值k
6.635,则在犯错误的概率不超过
0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知,在犯错误的概率不超过
0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;
③从独立性检验可知,在犯错误的概率不超过
0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法
①不正确;说法
②中对“确定容许推断犯错误概率的上界”理解错误;说法
③正确.答案
③5.在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机的情况男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.能否在犯错误的概率不超过
0.10的前提下推断在天气恶劣的飞机航程中,男乘客比女乘客更容易晕机?解由已知条件得出下列2×2列联表晕机不晕机总计男乘客243155女乘客82634总计325789由公式可得K2的观测值k==≈
3.
6892.
706.故在犯错误的概率不超过
0.10的前提下,认为“在天气恶劣的飞机航程中,男乘客比女乘客更容易晕机”.[课时达标检测]
一、选择题1.判断两个分类变量是彼此相关还是相互独立的常用的方法中,最为精确的是 A.2×2列联表B.独立性检验C.等高条形图D.其他解析选B A、C只能直观地看出两个分类变量x与y是否相关,但看不出相关的程度.独立性检验通过计算得出相关的可能性,较为准确.2.假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其2×2列联表为YX y1y2总计x1aba+bx2cdc+d总 计a+cb+da+b+c+d对同一样本,以下数据能说明X与Y有关的可能性最大的一组为 A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5D.a=3,b=2,c=4,d=5解析选D 对于同一样本,|ad-bc|越小,说明x与y相关性越弱,而|ad-bc|越大,说明x与y相关性越强,通过计算知,对于A,B,C都有|ad-bc|=|10-12|=
2.对于选项D,有|ad-bc|=|15-8|=7,显然7>
2.3.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是 A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即k越小,“X与Y有关系”的可信程度越小.故选B.4.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过
0.005的前提下认为事件A和B有关系,则具体计算出的数据应该是 A.k≥
6.635B.k<
6.635C.k≥
7.879D.k<
7.879解析选C 犯错误的概率为
0.5%,对应的k0的值为
7.879,由独立性检验的思想可知应为k≥
7.
879.5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表男女总计爱好402060不爱好203050总计6050110由K2=算得,观测值k=≈
7.
8.附表PK2≥k
00.
0500.
0100.001k
03.
8416.
63510.828参照附表,得到的正确结论是 A.有99%以上的把握认为“爱好该项运动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过
0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过
0.1%的前提下,认为“爱好该项运动与性别无关”解析选A 由k≈
7.8及PK2≥
6.635=
0.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”.
二、填空题6.下列关于K2的说法中,正确的有________.
①K2的值越大,两个分类变量的相关性越大;
②K2的计算公式是K2=;
③若求出K2=4>
3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;
④独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断.解析对于
①,K2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故
①错;对于
②,ad-bc应为ad-bc2,故
②错;
③④对.答案
③④7.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示文艺节目新闻节目总计20至40岁401858大于40岁152742总计5545100由表中数据直观分析,收看新闻节目的观众是否与年龄有关________填“是”或“否”.解析因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.答案是8.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表 文化程度与月收入列联表 单位人月收入2000元以下月收入2000元及以上总计高中文化以上104555高中文化及以下203050总计3075105由上表中数据计算得K2的观测值k=≈
6.109,请估计有________把握认为文化程度与月收入有关系.解析由于
6.109>
5.024,所以在犯错误的概率不超过
0.025的前提下,即有
97.5%的把握认为文化程度与月收入有关系.答案
97.5%
三、解答题9.巴西医生马廷恩收集犯有各种贪污、受贿罪的官员与廉洁官员寿命的调查资料500名贪官中有348人的寿命小于平均寿命,152人的寿命大于或等于平均寿命;590名廉洁官员中有93人的寿命小于平均寿命,497人的寿命大于或等于平均寿命.这里,平均寿命是指“当地人均寿命”.能否在犯错误的概率不超过
0.01的前提下认为官员在经济上是否清廉与他们寿命的长短之间有关系?解据题意列2×2列联表如下短寿B长寿总计贪官A348152500廉洁官93497590总计4416491090假设官员是否清廉与他们寿命的长短无关.由公式得K2的观测值k=≈
325.
635.因为
325.635>
6.635,因此,在犯错误的概率不超过
0.01的前提下认为官员在经济上是否清廉与他们寿命的长短之间是有关系的.10.某地震观测站对地下水位的变化和发生地震的情况共进行1700次观测,列联表如下有震无震总计水位有变化989021000水位无变化82618700总计18015201700利用图形判断地下水位的变化与地震的发生是否有关系,并用独立性检验分析是否有充分的证据显示二者有关系.解相应的等高条形图如图所示.图中两个阴影条的高分别表示水位有变化和水位无变化的样本中有震的频率.由图可看出,水位有变化样本中有震的频率与水位无变化样本中有震的频率相差不大,因此不能判断地震与水位变化有关系.根据列联表中的数据,得K2的观测值为k=≈
1.
5942.072,所以题中数据没有充分的证据显示地下水位的变化与地震的发生有关系,但也不能认为二者无关系. 统计案例
一、选择题本大题共10小题,每小题5分,共50分1.对于自变量x和因变量y,当x取值一定时,y的取值带有一定的随机性,x,y之间的这种非确定性关系叫 A.函数关系 B.线性关系C.相关关系D.回归关系解析选C 由相关关系的概念可知,C正确.2.在一线性回归模型中,计算其相关指数R2=
0.96,下面哪种说法不够妥当 A.该线性回归方程的拟合效果较好B.解释变量对于预报变量变化的贡献率约为96%C.随机误差对预报变量的影响约占4%D.有96%的样本点在回归直线上解析选D 由相关指数R2表示的意义可知A、B、C三种说法都很妥当,相关指数R2=
0.96,其值较大,说明残差平方和较小,绝大部分样本点分布在回归直线附近,不一定有96%的样本点在回归直线上,故选D.3.下表显示出样本中变量y随变量x变化的一组数据,由此判断它最可能是 x45678910y14181920232528A.线性函数模型B.二次函数模型C.指数函数模型D.对数函数模型解析选A 画出散点图图略可以得到这些样本点在某一条直线上或该直线附近,故最可能是线性函数模型.4.下表是某厂1~4月份用水量单位百吨的一组数据月份x1234用水量y
4.
5432.5由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归方程是=-
0.7x+,则= A.
10.5B.
5.15C.
5.2D.
5.25解析选D 样本点的中心为
2.
53.5,将其代入线性回归方程可解得=
5.
25.5.下面的等高条形图可以说明的问题是 A.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的B.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同C.此等高条形图看不出两种手术有什么不同的地方D.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握解析选D 由等高条形图可知选项D正确.6.根据一位母亲记录儿子3~9岁的身高数据,建立儿子身高单位cm对年龄单位岁的线性回归方程为=
7.19x+
73.93,若用此方程预测儿子10岁时的身高,有关叙述正确的是 A.身高一定为
145.83cmB.身高大于
145.83cmC.身高小于
145.83cmD.身高在
145.83cm左右解析选D 用线性回归方程预测的不是精确值,而是估计值.当x=10时,y=
145.83,只能说身高在
145.83cm左右.7.在2×2列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大 A.与B.与C.与D.与解析选A 当ad与bc相差越大,两个分类变量有关系的可能性越大,此时与相差越大.8.如图,5个x,y数据,去掉D310后,下列说法错误的是 A.相关系数r变大B.残差平方和变大C.相关指数R2变大D.解释变量x与预报变量y的相关性变强解析选B 由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.9.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据作文成绩优秀作文成绩一般总计课外阅读量较大221032课外阅读量一般82028总计303060由以上数据,计算得到K2的观测值k≈
9.643,根据临界值表,以下说法正确的是 A.没有充足的理由认为课外阅读量大与作文成绩优秀有关B.有
0.5%的把握认为课外阅读量大与作文成绩优秀有关C.有
99.9%的把握认为课外阅读量大与作文成绩优秀有关D.有
99.5%的把握认为课外阅读量大与作文成绩优秀有关解析选D 根据临界值表,
9.643>
7.879,在犯错误的概率不超过
0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有
99.5%的把握认为课外阅读量大与作文成绩优秀有关.10.两个分类变量X和Y,值域分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=
35.若X与Y有关系的可信程度不小于
97.5%,则c等于 A.3 B.4 C.5 D.6解析选A 列2×2列联表如下x1x2总计y1102131y2cd35总计10+c21+d66故K2的观测值k=≥
5.
024.把选项A,B,C,D代入验证可知选A.
二、填空题本大题共4小题,每小题5分,共20分11.给出下列关系
①人的年龄与他她拥有的财富之间的关系;
②曲线上的点与该点的坐标之间的关系;
③苹果的产量与气候之间的关系;
④森林中的同一种树木,其断面直径与高度之间的关系;
⑤学生与他她的学号之间的关系.其中有相关关系的是________.解析利用相关关系的概念判断.
①是不确定关系.
②曲线上的点与该点坐标是一种对应关系,即每一个点对应一个坐标,是确定关系.
⑤学生与其学号也是确定的对应关系.答案
①③④12.已知回归直线的斜率的估计值是
1.23,样本点的中心为45,则回归直线方程是________.解析设回归直线的方程为=x+.回归直线的斜率的估计值是
1.23,即=
1.23,又回归直线过样本点的中心45,所以5=
1.23×4+,解得=
0.08,故回归直线的方程为=
1.23x+
0.
08.答案=
1.23x+
0.0813.某单位为了了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表.由表中数据得线性回归方程=x+,其中=-
2.现预测当气温为-4℃时,用电量的度数约为________.用电量y度24343864气温x℃181310-1解析由题意可知=18+13+10-1=10,=24+34+38+64=40,=-
2.又回归直线=-2x+过点1040,故=60,所以当x=-4时,=-2×-4+60=
68.答案6814.某部门通过随机调查89名工作人员的休闲方式是看电视还是运动,得到的数据如下表看电视运动总计女243155男82634总计325789你认为性别与休闲方式有关系的把握为________.解析由列联表中的数据,得K2的观测值为k=≈
3.689>
2.706,因此,在犯错误的概率不超过
0.10的前提下认为性别与休闲方式有关系,即认为性别与休闲方式有关系的把握为90%.答案90%
三、解答题本大题共4小题,共50分.解答时应写出文字说明,证明过程或运算步骤.15.本小题满分12分有两个分类变量x与y,其一组观测值如下面的2×2列联表所示y1y2x1a20-ax215-a30+a其中a15-a均为大于5的整数,则a取何值时,在犯错误的概率不超过
0.1的前提下认为x与y之间有关系?解查表可知,要使在犯错误的概率不超过
0.1的前提下认为x与y之间有关系,则k≥
2.706,而k===.由k≥
2.706得a≥
7.19或a≤
2.
04.又a>5且15-a>5,a∈Z,即a=8或9,故a为8或9时,在犯错误的概率不超过
0.1的前提下认为x与y之间有关系.16.本小题满分12分某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了4次试验,得到数据如下零件的个数x个2345加工的时间y小时
2.
5344.51在给定坐标系中画出表中数据的散点图;2求y关于x的线性回归方程=x+;3试预测加工10个零件需要的时间.解1散点图如图所示2由题中表格数据得=
3.5,=
3.5,xi-yi-=
3.5,xi-2=5,由公式计算得=
0.7,=-=
1.05,所以所求线性回归方程为=
0.7x+
1.
05.3当x=10时,=
0.7×10+
1.05=
8.05,所以预测加工10个零件需要
8.05小时.17.本小题满分12分通过随机询问某校110名高中学生在购买食物时是否看营养说明,得到如下列联表男女总计看营养说明503080不看营养说明102030总计60501101从这50名女生中按是否看营养说明分层抽样,抽取一个容量为5的样本,问样本中看与不看营养说明的女生各有多少名?2从1中的5名女生中随机选取2名进行深度访谈,求选到看与不看营养说明的女生各1名的概率;3根据以上列联表,问能否在犯错误的概率不超过
0.010的前提下认为“性别与在购买食物时看营养说明有关系”?参考公式K2=,其中n=a+b+c+d.参考数据PK2≥k
00.
100.
050.
0250.
0100.005k
02.
7063.
8415.
0246.
6357.879解1根据分层抽样可得,样本中看营养说明的女生有×30=3名,样本中不看营养说明的女生有×20=2名.2记样本中看营养说明的3名女生为a1,a2,a3,不看营养说明的2名女生为b1,b2,从这5名女生中随机选取2名,共有10个等可能的基本事件a1,a2,a1,a3,a1,b1,a1,b2,a2,a3,a2,b1,a2,b2,a3,b1,a3,b2,b1,b2.其中事件A“选到看与不看营养说明的女生各1名”包含了6个基本事件a1,b1,a1,b2,a2,b1,a2,b2,a3,b1,a3,b2.所以所求的概率PA==.3根据题中的列联表得K2==≈
7.
486.由PK2≥
6.635=
0.010可知,在犯错误的概率不超过
0.010的前提下认为该校高中学生“性别与在购买食物时看营养说明有关系”.18.本小题满分14分在关于人的脂肪含量百分比和年龄的关系的研究中,研究人员获得了一组数据如下表年龄x2327394145495053545657586061脂肪含量y
9.
517.
821.
225.
927.
526.
328.
229.
630.
231.
430.
833.
535.
234.61作出散点图,并判断y与x是否线性相关,若线性相关,求线性回归方程;2求相关指数R2,并说明其含义;3给出37岁时人的脂肪含量的预测值.解1散点图如图所示.由散点图可知样本点呈条状分布,脂肪含量与年龄有比较好的线性相关关系,因此可以用线性回归方程来刻画它们之间的关系.设线性回归方程为=x+,则由计算器算得≈
0.576,≈-
0.448,所以线性回归方程为=
0.576x-
0.
448.2残差平方和=yi-i2≈
37.20,总偏差平方和yi-2≈
644.99,R2=1-≈
0.942,表明年龄解释了
94.2%的脂肪含量变化.3当x=37时,=
0.576×37-
0.448≈
20.9,故37岁时人的脂肪含量约为
20.9%.。