还剩8页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
利用方差分析纵向统计地区差异性对蝙蝠免疫系统的影响作者叶耀文所在小组43关键词同质性分析,地域分析,免疫,生物信息实验背景免疫是机体对外界病原的常见排异反应,而干扰素反应是哺乳动物抗病毒免疫中的重要组成部分细胞在受到干扰素刺激后会诱导大量基因的表达量或表达模式发生巨大的变化,从而发挥免疫功能由于蝙蝠(翼手目动物的统称)可以携带许多的病毒而不产生明显的疾病症状,所以人们对蝙蝠的免疫系统非常地感兴趣之前已有研究证明一些蝙蝠物种的干扰素反应具有一些独特的特征,但是缺乏环境因素对不同蝙蝠干扰素反应共性的研究本研究利用两种蝙蝠(分别代表蝙蝠的两个亚目)和四种非蝙蝠哺乳动物(人、大鼠、猪、狗)的已发表转录组测序数据,以生物信息学的分析手段,从基因整体表达量水平和基因某一些转录异构体使用变化的水平上研究了不同环境因素下干扰素反应的共性和蝙蝠干扰素反应的特点实验目的本次数据分析的真实案例来源囚中给出了地区相关的体重信息(数据可溯源见附件1)该数据可以拿来做方差分析,来判断两个地区蝙蝠体重的同质性,从而检测地域因素这一变量对蝙蝠免疫系统中干扰素的产生是否存在影响实验设计.首先将所有蝙蝠在称重取样前都放在单独的布袋或盒子中进行称重后测量出每个蝙蝠的体重数据再使用3毫米活检笔进行机翼活检,并在LN中快速冷冻并转移到-15CTC冰箱进行长期储存(肌支原体),或立即在室温下保存在二氧化硅珠
(32)中,然后转移到-2CTC冰箱进行长期储存(铁喳琳,贝希斯坦支原体和施莱伯西支原体)o后续步骤作为对应每个不同体重对应的血液样本保存,以便排查出特殊数据背后的不稳定性因素.利用两样本方差的同质性检验,对比两地蝙蝠体重分析提取的方差,观察看地域环境因素对蝙蝠干扰素表达量的影响根据课堂所学内容,两样本方差的同质性检验应该使用F检验法也即检验两个正态随机变量的总体方差是否相等的一种假设检验方法.本次同质性分析借助工具Rstudio在R中使用var中的test函数进行方差的同质性检验控制变量为不同的地域但为同一蝙蝠属类数据导入为74*2条数据每条数据包含以下特征属地来源,蝙蝠种类,体重参数,血液样本采集号蝙蝠体重数据部分如下(全部数据见插入附件EXCEL)统计分析过程:.R中进行数据导入:ntitledl*PjUntitled2*PjUntitled3*Untitled4*XPjUntitled5*Untitled6*»0口烂IIHCSourceonSaveQ/U Q►Run今,3*Source▼三1ibrarydatasetsdataToothGrowthinstal
1.packagesxlsxlibraryxlsxread.xlsxfi1esheetindexsheetName=NULLrowIndex=NULLstartRow=NULLendRow=NULLcolIndex=NULLas.data.frame=TRUEheader=TRUEcoldasses=NAkeepFormulas=FALSEencoding=HunknownH...my_data-ToothGrowthl或者直接使用excel讲数据处理为R接受的格式本次分析中使用该方法如下=TEXTJOINCTRUEG2:G75二TEXgN(二TRUEG2G75)TEXTJOIN(分隔符,忽略空白单元格,字符串
1...)得到纯数据结果以逗号分隔如下
224.
04219.
91214.
54218.
56221.
43228.
16239.
23203.
45218.
48225.
6216.
1121184211.
83239.
53224.
22210.
16216.
62209.
02226.
25220.
93215.
92239219.
14228.
82216.
75215.
46217.
02213.
51219.
66214.
89222.
08229.
39202.
09217.
45225.
03227.
98235.
48203.
34194.
75229.
74217.
85214.
6234.
18219.
56210.
09228.
13233.
11208.
14224.
06212.
7212.
6217.
46223.
8217.
29214.
88211.
46198.
8226.
57215.
69222.
22209.
09222.
15216.
97209.
8217.
72233.
83243.
55221.
98213.
61214.
8217.
08202.
44213.
56217.66利用R对原始数据和过滤后的数据进行质量评价原始数据根据其质量特征利用进行质量筛选代码如下ititledl*Untitled2*X©JUntitled3*XOjUntitled4*Untitled5*X笆Untitled6*»口口烂I怎।目QiSourceonSaveQ/▼日E^RunISource▼三1ibrarydatasetsdataToothGrowthinstall.packagesHxlsxn1ibraryfxlsxread.xlsxfilesheetindexsheetName=NULLrowIndex=NULLstartRow=NULLendRow=NULLcolIndex=NULLas.data.frame=TRUEheader=TRUEcolClasses=NAkeepFormulas=FALSEencoding=unknown...my_data-ToothGrowtha-c
171.
57172.
96180.
01172.
88171.
66183.
85176.
62182.
25175.
7185.b-c
224.
04219.
91214.
54218.
56221.
43228.
16239.
23203.
45218.48225var.testabConsoleTerminalXBackgroundJobsX_f4R
4.
2.1~/OJiicip.ocaiiuicuiniriumiuvvoeiiiilciiciluluiicip.TypeqtoquitR.[Workspaceloadedfrom-/.RData]a-c
171.
57172.
96180.
01172.
88171.
66183.
85176.
62182.
25175.
7185.
76164.
77175.
52178.
74179.
55179.
09166.
98177.
78184.
85169.
37147.
26175.
83180.
86167.
11177.
25171.
91174.
42193.
72182.
63157.
9175.
54165.
89173.
79169.
46189.
56195.
39191.
51169.
42165.
95165.
59187.
77185.
98166.
73176.
89176.
56192.
88175.
1181.
11179.
76172.
4179.
25169.
2171.
55175.
93180.
93181.
87186.
39182.
32181.
13184.
14180.
23179.
8198.
35184.
97207.
29179.
1192.
18162.
08176.
91186.
1167.
49182.
16186.
29183.
59191.93+b-c
224.
04219.
91214.
54218.
56221.
43228.
16239.
23203.
45218.
48225.
6216.
11211.
84211.
83239.
53224.
22210.
16216.
62209.
02226.
25220.
93215.
92239219.
14228.
82216.
75215.
46217.
022135121966214.
89222.
08229.
39202.
09217.
45225.
03227.
98235.
48203.
34194.
75229.
7421785214.
6234.
18219.
56210.
09228.
13233.
11208.
14224.
06212.
7212.
6217.
46223.
8217.
29214.
88211.
46198.
8226.
57215.
69222.
22209.
09222.
15216.
97209.
8217.
722338324355221.
9821361214.
8217.
0820244213.
56217.66得到计算结果如下Ftesttocomparetwovariancesdata:aandbF=
1.0114numdf=73denomdf=73p-value=
0.9616alternativehypothesis:trueratioofvariancesisnotequalto195percentconfidenceinterval:
0.
63694451.6059527sampleestimates:ratioofvariances
1.011387根据课堂所学内容,两样本方差的同质性检验应该使用F检验法也即检验两个正态随机变量的总体方差是否相等的一种假设检验方法在Rstudio中导入excel中试验数据,对数据进行预处理后选出目标分析项,进行同质化分析
2.对该数据使用的R语言中()函数进行同质性分析该函数内含有如下特征值,而其中常用特征值如下xy为进行检验的数据alternative设定备择假设,包括(default)greaterorless:设定显著性水平,默认a=
0.05需要注意的是,()的零假设是x和y的方差比值(rati)为1(默认),即是x与y的方差相等相关函数信息参考表附完成后整体Studio截图
100.
0050.
000.0014710131619222528313437404346495255586164677073Californiaregionsweight/g30015010050014710131619222528313437404346495255586164677073F检验法是英国统计学家Fisher提出的,主要通过比较两组数据的方差,以确定他们的精密度是否有显著性差异在本次数据分析中,如果以95%为置信区间,从该设定下的F值分析以及直观数据图得出结论两组数据精密度相近,蝙蝠的体重为同质性数据,证明了该篇论文使用其数据分析的有效性,即该数据具有统计学意义结果分析与讨论在详细结果中F=
0.66777numdf=73denomdf=73p-value=
0.08664alternativehypothesis:trueratioofvariancesisnotequalto1的结果由以上几个部分组成F检验统计值,包括两样本分别的自由度和p-value・假设一系列服从正态分布的母体,都有相同的标准差这是最典型的F检验,该检验在方差分析ANOVA中也非常重要・假设一个回归模型很好地符合其数据集要求,检验多元线性回归模型中被解释变量与解释变量之间线性关系在总体上是否显著置信度95%时的F值见下表f大2345678910ooP值为结果可信程度的一个递减指标,P值越大,越不能认为样本中变量的关联是总体中各变量关联的可靠指标P值是将观察结果认为有效即具有总体代表性的犯错概率如p=
0.05提示样本中变量关联有5%的可能是由于偶然性造成的即假设总体中任意变量间均无关联,重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果F值是F检验的统计量值F检验是一种在零假设nullhypothesisH0之下,统计值服从F-分布的检验其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体F值和t值是F检验和t检验的统计量值,相对应的概率分布,就是F分布和t分布统计显著性是出现目前样本这结果的机率P值代表结果的可信程度,P越大,就越不能认为样本中变量的关联是总体中各变量关联的可靠指标P值是将观察结果认为有效即具有总体代表性的犯错概率,如P=
0.05提示样本中变量关联有5%的可能是由于偶然性造成的F值的意义是用来检验样本的结果能够代表总体的真实程度当P值的结果为
0.05^p
0.01被认为是具有统计学意义,或结果为O.OlNpO.OOl被认为具有高度统计学意义F检验又叫方差齐性检验在两样本t检验中要用到F检验从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性若两总体方差相等,则直接用t检验,若不等,可采用C检验或变量变换或秩和检验等方法其中要判断两总体方差是否相等,就可以用F检验检验两个样本的方差是否有显著性差异,这是选择何种T检验(等方差双样本检验,异方差双样本检验)的前提条件可能存在的问题F检验对于偏离正常假设非常敏感在使用F检验之前,需要检查数据是否正态分布而被实验则直接对数据进行了同质性分析,未统计数据的正态分布情况如果数据的偏离较大,则同质性分析的结果可能会失真问题后续展望及讨论面对上述提到的问题,Shapiro-Wilk检验可用于检验正态性假设是否成立也可以使用图(分位数图)以图形方式评估变量的正态性图绘制了给定样本与正态分布之间的相关性如果对正态性不满足,更好的选择是使用Levene检验或Fligner-Killeen检验,它们对偏离正态性的假设这点不太敏感真实案例来源⑴曾嘉鸣.干扰素刺激后蝙蝠细胞转录组的生物信息学初步分析[D].武汉大学:
10.27379/cL.
2021.
000526.batstyperegionweight/gbloodsamplenotesMyotisbrandtiiOhio
171.57MyotisbrandtiiOhio
172.96MyotisbrandtiiOhio
180.01MyotisbrandtiiOhio
172.88MyotisbrandtiiOhio
171.66MyotisbrandtiiOhio
183.85MyotisbrandtiiOhio
176.62MyotisbrandtiiOhio
182.25MyotisbrandtiiOhio
175.70MyotisbrandtiiOhio
185.76batstyperegionweight/gbloodsamplenotesMyotisbrandtiiCalifornia
224.04MyotisbrandtiiCalifornia
219.91MyotisbrandtiiCalifornia
214.54MyotisbrandtiiCalifornia
218.56MyotisbrandtiiCalifornia
221.43MyotisbrandtiiCalifornia
228.16MyotisbrandtiiCalifornia
239.23MyotisbrandtiiCalifornia
203.45MyotisbrandtiiCalifornia
218.48MyotisbrandtiiCalifornia
225.60xy数据值的数值向量,或拟合的线性模型对象(从类“Im”继承)ratioX和y的总体方差的假设比率alternative指定替代假设的字符串,必须是(默认)、greater或“less”之一您可以只指定首字母返回的置信区间的置信水平formulaIhs〜rhs形式的公式,其中Ihs是一个数字变量,给出数据值,rhs是一个因子,具有两个级别,给出相应的组data一个可选的矩阵或数据帧(或类似见)包含式中的变量的formula默认情况下,变量取自environment(formula)osubset一个可选的向量指定要使用的观测值子集na.action一个函数,它指示当数据包含NA时应该发生什么默认为getOption(na.action)・••进一步的参数将被传递给方法或从方法中传递。