还剩9页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
第3讲 变量间的相关关系与统计案例【2015年高考会这样考】以选择题或填空题的形式考查回归分析及独立性检验中的基本思想方法及其简单应用.【复习指导】高考在该部分的主要命题点就是回归分析和独立性检验的基础知识和简单应用.复习时要掌握好回归分析和独立性检验的基本思想、方法和基本公式.基础梳理1.相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.3.回归方程1最小二乘法使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.2回归方程两个具有线性相关关系的变量的一组数据x1,y1,x2,y2,…,xn,yn,其回归方程为=x+,则其中,b是回归方程的斜率,a是在y轴上的截距.4.样本相关系数r=,用它来衡量两个变量间的线性相关关系.1当r>0时,表明两个变量正相关;2当r<0时,表明两个变量负相关;3r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>
0.75时,认为两个变量有很强的线性相关关系.5.线性回归模型1y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.2相关指数用相关指数R2来刻画回归的效果,其计算公式是R2=,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.6.独立性检验1用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如是否吸烟,宗教信仰,国籍等.2列出的两个分类变量的频数表,称为列联表.3一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表称为2×2列联表为2×2列联表y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+dK2=其中n=a+b+c+d为样本容量,可利用独立性检验判断表来判断“x与y的关系”.这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.两个规律1函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.2当K2≥
3.841时,则有95%的把握说事A与B有关;当K2≥
6.635时,则有99%的把握说事件A与B有关;当K2≤
2.706时,则认为事件A与B无关.三个注意1回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.2线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.3独立性检验的随机变量K2=
3.841是判断是否有关系的临界值,K2≤
3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.双基自测1.人教A版教材习题改编下面哪些变量是相关关系 .A.出租车车费与行驶的里程B.房屋面积与房屋价格C.身高与体重D.铁块的大小与质量解析 A,B,D都是函数关系,其中A一般是分段函数,只有C是相关关系.答案 C2.对变量x,y有观测数据xi,yii=12,…,10,得散点图1;对变量u,v有观测数据ui、vii=12,…,10,得散点图2.由这两个散点图可以判断 .A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析 由题图1可知,各点整体呈递减趋势,x与y负相关;由题图2可知,各点整体呈递增趋势,u与v正相关.答案 C3.2012·南昌模拟某商品销售量y件与销售价格x元/件负相关,则其回归方程可能是 .A.=-10x+200B.=10x+200C.=-10x-200D.=10x-200解析 因为销量与价格负相关,由函数关系考虑为减函数,又因为x,y不能为负数,再排除C,故选A.答案 A4.2012·枣庄模拟下面是2×2列联表y1y2合计x1a2173x2222547合计b46120则表中a,b的值分别为 .A.9472B.5250C.5274D.7452解析 ∵a+21=73,∴a=52,又a+22=b,∴b=
74.答案 C5.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K2的观测值k=
27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的有关,无关.解析 由观测值k=
27.63与临界值比较,我们有99%的把握说打鼾与患心脏病有关.答案 有关 考向一 相关关系的判断【例1】►山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据单位kg施化肥量x15202530354045棉花产量y3303453654054454504551画出散点图;2判断是否具有相关关系.[审题视点]1用x轴表示化肥施用量,y轴表示棉花产量,逐一画点.2根据散点图,分析两个变量是否存在相关关系.解 1散点图如图所示2由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.【训练1】根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________填“是”与“否”.解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系.答案 否考向二 独立性检验【例2】►2010·全国新课标为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下 性别是否需要志愿者 男女需要4030不需要1602701估计该地区老年人中,需要志愿者提供帮助的老年人的比例;2能否有99%的把握认为该地区老年人是否需要志愿者提供帮助与性别有关?3根据2的结论,能否提出更好的调查方法来估计该地区老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附PK2≥k
0.
0500.
0100.001k
3.
8416.
63510.828K2=[审题视点]第2问由a=40,b=30,c=160,d=270,代入公式可求K2,由K2的值与
6.635比较断定.第3问从抽样方法说明.解 1调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为=14%.2K2=≈
9.
967.由于
9.967>
6.635,所以有99%的把握认为该地区老年人是否需要帮助与性别有关.3由2的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,采用分层抽样方法,这要比采用简单随机抽样方法更好.独立性检验的步骤1根据样本数据制成2×2列联表;2根据公式K2=计算K2的观测值;3比较K2与临界值的大小关系作统计推断.【训练2】某企业有两个分厂生产某种零件,按规定内径尺寸单位mm的值落在[
29.
9430.06的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表甲厂分组[
29.86,29.90[
29.90,29.94[
29.94,29.98[
29.98,30.02[
30.02,30.06[
30.06,30.10[
30.10,30.14频数12638618292614乙厂分组[
29.86,29.90[
29.90,29.94[
29.94,29.98[
29.98,30.02[
30.02,30.06[
30.06,30.10[
30.10,30.14频数2971851597662181试分别估计两个分厂生产零件的优质品率;2由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.甲 厂乙 厂合 计优质品非优质品合 计附 K2=,PK2≥k
0.
050.01k
3.
8416.635解 1甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为×100%=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为×100%=64%.2甲 厂乙 厂合 计优质品360320680非优质品140180320合 计5005001000K2=≈
7.35>
6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.考向三 线性回归方程【例3】►2012·菏泽模拟下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x吨与相应的生产能耗y吨标准煤的几组对照数据.x3456y
2.
5344.51请画出上表数据的散点图;2请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;3已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据2求出的线性回归方程.预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?参考数值3×
2.5+4×3+5×4+6×
4.5=
66.5[审题视点]2问利用公式求、,即可求出线性回归方程.3问将x=100代入回归直线方程即可.解 1由题设所给数据,可得散点图如图所示.2由对照数据,计算得=86,==
4.5吨,==
3.5吨.已知iyi=
66.5,所以,由最小二乘法确定的回归方程的系数为===
0.7,=-=
3.5-
0.7×
4.5=
0.
35.因此,所求的线性回归方程为=
0.7x+
0.
35.3由2的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为90-
0.7×100+
0.35=
19.65吨标准煤.在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.【训练3】2011·江西为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下父亲身高x/cm174176176176178儿子身高y/cm175175176177177则y对x的线性回归方程为 .A.y=x-1B.y=x+1C.y=88+xD.y=176解析 由题意得==176cm,==176cm,由于,一定满足线性回归方程,经验证知选C.答案 C 阅卷报告15——数据处理不当导致计算错误而失分【问题诊断】由于大多数省市高考要求不准使用计算器,而线性回归问题和独立性检验问题仍是近几年新课标高考的常考点,并且大多是考查考生的计算能力,就计算方面常有不少考生因计算出错而失分.【防范措施】平时训练时首先养成勤于动手的习惯,亲自动手计算,再者考场上要保持心态放松,做题时细心认真,最终可减少错误的发生.【示例】►2011·安徽某地最近十年粮食需求量逐年上升,下表是部分统计数据年份2002200420062010需求量万吨2362462572762861利用所给数据求年需求量与年份之间的回归直线方程=bx+a;2利用1中所求出的直线方程预测该地2012年的粮食需求量.实录 1=2006,==
260.
2.b=+=
6.2,错因 求b时计算出错,b值不准确.a=-b=
260.2-
6.2×2006=-
12177.∴=
6.2x-
12177.2=
6.2×2012-12177=
297.
4.正解 1由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下年份-2006-4-2024需求量-257-21-1101929对预处理后的数据,容易算得,=0,=
3.2,b===
6.5,a=-b=
3.
2.由上述计算结果,知所求回归直线方程为-257=bx-2006+a=
6.5x-2006+
3.2,即=
6.5x-2006+
260.
2.
①2利用直线方程
①,可预测2012年的粮食需求量为6.52012-2006+
260.2=
6.5×6+
260.2=
299.2万吨.。