还剩2页未读,继续阅读
文本内容:
变量间的相关关系统计案例
一、变量间的相关关系
1.常见的两变量之间的关系有两类一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为幺相关.
二、两个变量的线性相关
1.从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫线性回归方程.〃
2.回归直线方程为$=版+2,其中=5=号----------------------------a=y-bx.2工-nxf=l
3.的最小值而得到回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.
4.相关系数当r0时,表明两个变量正相关;当r0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于时,表明两个变量之间几乎不存在线性相关关系.通常Irl大于
0.75时,认为两个变量有很强的线性相关性.
三、独立性检验
1.2X2列联表假设有两个分类变量X和Y,它们的值域分别为{xi,X2}和{y y},其样本频数列联表(称2X2列2联表)为V总计2a b4+bXIC dc+dX2总计a+c h~\~d a+h+c+d群=(a+颂黑)(%)(c+W其中=a+〃+c+d为样本容量)•
2.用烂的大小可以决定是否拒绝原来的统计假设为,若烂值较大,就拒绝Ho,即拒绝事件A与3无关.
3.当群
23.841时,则有95%的把握说事件A与5有关;当群
26.635时,则有99%的把握说事件A与3有关;当蜉★
2.706时,则认为事件A与8无关.例1某商品销售量M件)与销售价格元/件)负相关,则其回归方程可能是()A.y=-2x+100B.y=2x+100C,y=~2x~100D.$=2x-100解B、D为正相关,C$中值恒为负,不符合题意.例2两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是A.模型1的相关指数R2为
0.98B.模型2的相关指数R2为.80C.模型3的相关指数R2为
0.50D.模型4的相关指数R2为.25解相关指数R2越大拟合效果越好.选AX12345y
1.
21.
82.
53.
23.8A.0,0B.2,
1.8C.3,
2.5D.4,
3.2解回归直线恒过定点x,y,故x=3,y=
2.
5.j^Co例4在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算的观测值k=
27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是的有关,无关.解:k=
27.
6310.828,有
99.9%的把握认为打鼾与患心脏病有关.答案有关例5已知x、y的取值如下表所示X0134y
2.
24.
34.
86.7从散点图分析,y与x线性相关,且=
0.95x+,则,的值为解计算x=2,y=
4.5;代入得4=
2.
6.
1.对回归分析的理解回归分析是处理变量相关关系的一种数学方法,它主要解决三个问题⑴确定两个变量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;2根据一组观察值,预测变量的取值及判断变量取值的变化趋势;3求出回归方程.
2.独立性检验思想的理解独立性检验的思想类似于反证法,即要确定“两个变量x与y有关系”这一结论成立的可信度,首先假设结论不成立,即它们之间没有关系,也就是它们是相互独立的,利用概率的乘法公式可推知,加一历接近于零,也就是随机变量烂号饯*应该很小,如果计算出来的烂的观测值%不是很小,十/十十十
④通过查表P烂25的概率很小.又根据小概率事件不可能发生,由此判断假设不成立,从而可以肯定地断言x与y之间有关系.例6某地最近十年粮食需求量逐年上升,下表是部分统计数据:20022004200620082010年份需求量万吨236246257276286⑴利用所给数据求年需求量与年份之间的回归方程$=去+
①⑵利用⑴中所求出的直线方程预测该地2012年的粮食需求量.⑴由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程.为此对数据预处理如下:年份一2006—4-2024需求量一257-21—1101929解对预处理后的数据,容易算得x=0,A—4X—21+—2X—11+2*19+4X29260y=
3.2,b==40=
6.5,a—y—bx=
3.
2.由上述计算结果,知所求回归方程为yJ2_J_O2J_O2_L/I242+22+22+42—257=bx—2006+〃=
6.5x—2006+
3.
2.即y=
6.5x—2006+
260.
2.
①X23456y34689⑵利用直线方程
①,可预测2012年的粮食需求量为
6.5X2012-2006+
260.2=
6.5X6+
260.2=
299.2万吨%300万吨.的思想得拟合程度最好的直线是填序号.--人8一人一282Q O3一对于表中数据,现给出如下拟合直线
①y=x+l;
②y=2x—1;
③=于一弓;@y=^x9则根据最小二乘法解由题知x=4,y=
6.,54=y—Ax=一5,亍=尹一
5.故选
③例8一商场对每天进店人数和商品销售件数进行了统计对比,得到如下表格:人数Xi10152025303540件数犷471215202327其中i=1,2,3,4,5,67⑴以每天进店人数为横轴,每天商品销售件数为纵轴,画出散点图.y30111!;3U251;2520111;;20151___1______1_______1510111!।105111■■;;50510152025303540%O510152025303540%2求回归直线方程.结果保留到小数点后两位_____7__7_参考数据工为%=3245,x=25,=
15.43,=5075,7x2=4375,7xy=2695i=l i=l3预测进店人数为80人时,商品销售的件数.结果保留整数解1散点图如图右7__7____
2.^为%=3245,x=25,y=
15.43,2工=5075,7x2=4375,7x^=2695i=\1=\・・〃b=上=
0.79,a=y-bx=-
4.32,回归直线方程是y=
0.79x—
4.
32.2~2x.-nx i=\z男女总计爱好402060不爱好203050总计6050110nad-be2_______算得,P烂NZ
0.
0500.
0100.001a+bc+da+cb+dk
3.
8416.
63510.828110义40X30—20*202_
7.
8.附表:K=60X50X60X50y3进店人数80人时,商品销售的件数y=
0.79x80-
4.32^59件.参照例附9表通,过得随到机的询正问确结11论0名是性别不同的大学生是否爱好某项运动,得到如下的列联表A.有99%以上的把握认为“爱好该项动动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过
0.1%的前提下,认为“爱好该项运动与性别无关”解根据独立性检验的定义,由K2-
7.
86.635可知我们有99%以上的把握认为“爱好该项运动与性别有由群=关.故选A例10某中学对高二甲、乙两个同类班级进行“加强’语文阅读理解训练对提高数学应用题得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示60分以下61〜70分71〜80分81〜90分91〜100分甲班(人数)36111812乙班(人数)48131510现规定平均成绩在80分以上(不含80分)的为优秀.⑴试分别估计两个班级的优秀率;⑵由以上统计数据填写下面2X2列联表,并问是否有75%的把握认为“加强语文阅读理解训练对提高数学应用题得分率”有帮助.优秀人数非优秀人数合计甲班乙班合计P(心/)
0.
500.
400.
250.
150.
100.
050.
0250.
0100.
0050.001ko
0.
4550.
7081.
3232.
0722.
7063.
8415.
0246.
6357.
87910.828参考公式及数据烂=〃〃1一姐2〃+Jc+Ja+cS+t/y25乙班优秀人数为25人,优秀率为而=50%,所以甲、乙两班的优秀率分别为60%和50%.30解
(1)由题意知,甲、乙两班均有学生50人,甲班优秀人数为30人,优秀率为畜=60%,优秀人数非优秀人数合计甲班302050乙班252550因为烂=^
1.010,所以由参考数据知,没有75%的把握认为“加强,语文阅读理解,合计5545100⑵列联表如下训练对提高数学应用题得分率”有帮助.100x30x25-20x25210050x50x55x4599。