还剩11页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
基于互信息的特征选择
1.模型定义D1病集S由有关心脏病病种(i=1,2,…,n)组成,令患者的疾病信息熵
[1]-
[2]为1显然疾病信息熵具有Shannon信息熵的性质,反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性.定义D2一个诊断病例库可以表示为关于病例特征的矩阵形式2其中,—病例库中第个病例的第个属性值;m—病例特征数量;n—病例库规模;定义D3一个信息系统(IS)可以表达为3其中,U是对象的非空有限__,R是属性的非空有限__,是属性值的__,Vr表示了属性任意时的属性值范围,是一个信息函数,它指定U中每一个对象x的属性值.当R中的属性集可进一步分解为条件属性__C和决策属性__D,且满足时,信息系统IS称为决策系统DS
[3].ai为某一条件属性,则决策属性D对某一条件属性ai的依赖程度可以利用下式计算
[4]-
[5]
(4)式中,RC、RD分别表示条件属性__C和策属性__D在论域上的等价关系.表示RD相对于RC的条件熵.的值越大,则条件属性ai对决策属性D的重要性越大.如果,则说明ai对于D不起作用,可以删除.在基于属___增益的约简方法中,计算案例库属性集的每个属性的信息增益,并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集,否则弃用属性.
1.3基于互信息的特征选择
[6]三种经典的基于互信息的特征选择算法,分别为信息增益、互信息和交叉熵,以及于互信息最大化的特征选择算法
[7]结合互信息的计算公式可知信息增益方法计算出的结果也是一种互信息若将互信息看成两个随机变量之间的关系则信息增益表示随机变量C={c1c2…ck}与随机变量T*={tt}之间的关系而互信息最大化研究的是随机变量C={c1c2…ck}与随机变量T={t1t2…tm}之间的关系每个特征的信息增益的计算是__的与其它特征的分布无关而互信息最大化将所有的特征看成一个整体计算随机变量T所能提供的关于随机变量C的互信息并计算出每个特征对该互信息的贡献苗夺谦
[8]等人提出的基于互信息的知识约简算法是建立在条件属性对决策属性的互信息基础上的;文
[9]提出了一种基于互信息增益率的属性约简算法;颜艳等
[10]提出了一种改进的互信息的属性约简算法,基于改进的互信息的启发式算法,并比对互信息、互信息增益率和文中提出的改进的互信息为属性重要性度量方法的启发式知识约简算法熵的公式联合熵条件熵联合熵和条件熵的关系
1.
3.1互信息(MI)互信息是衡量不考虑特征分布的两个特征之间的一般依赖性.互信息越大,这两个随机变量之间的__月越紧密.当互信息趋近于零时,这两者之间相互__.特征和类之间的互信息P(wi)是特征wi的概率,表示wi没有发生.P(ci)是类cj的概率,Pcj,wi是类cj与特征wi的联合概率.是特征之间的互信息.互信息和信息熵之间的__互信息和信息熵的关系见图
1.图1互信息和信息熵的关系图连续型时,px,py和px,y都是连续的计算连续的基因表达变量的熵或互信息,首先要将其离散化,一般采用直方图方法
[11],并根据表达向量的值域范围选择合适的bin值,联合熵计算可采用二维直方图法.连续变量的互信息计算第一种,histogram方法Moddemeijer,19__,将数据划分成等尺度(直方图)的间隔.该方法在低维度条件下,可以获得满意解;随着数据维度的增多,histogram估算值的精确度呈递减趋势.第二种,usingthecontinuouskernelbaseddensityesti__tortoapproxi__teIx;y,asproposedbyKwakandChoi2002b.利用基于密度评价者的连续核心近似互信息Ix;y,该方法由KwakandChoi2002b提出.给出一个变量x的N个样本,近似密度函数为(基于互信息特征选择标准 最大的依赖,最大关联,最小冗余)
[12]其中,是Parzen窗口函数(ParzenwindowfunctionParzen,1962);是第i个样本;h是窗口宽度.Parzen已证明了,选择适当的和h,当N趋近于无穷时,近似函数趋近于真实的px.通常,可用高斯窗口(Gaussianwindow)其中,,d是样本x的维度,是z的协方差,以上计算可以利用peng制作的__tlab的互信息计算工具包.http://___.__thworks.com/__tlab__ntral/fileexchange/14888-mutual-infor__tion-computation
1.
3.2基于互信息的特征选择的算法模型建立一个特征选择的模型,可以描述为设原始特征空间为FR,包含有n个特征,c为分类类别,现要从FR中选择k个最有效的特征,形成一个新的特征空间R,要求kn.利用互信息的特征选择的算法模型,包括二阶段1)内部阶段为经典的MIFSBattiti,1994用来选择特征的m个序数,——找到更高级的该种算法
[13]
[14]经典的MIFS算法的步骤如下
[15]改进的算法MIFS和MIFS-u算法都是近似算法,随着输入特征的增加,特征选择性能逐渐下降.希望考虑待选输入特征和已选输入特征之间互信息在特征选择过程中的权重是一致的,我们可以用待选输入特征和各个已选输入特征之间互信息JFF;C的均值作为待选输入特征和已选输入特征互信息JFS;C的近似,这样,权重系数可以取常数,在整个特征选择过程中,考虑与已选输入特征互信息权重的系数是一致的
[16].2)外部阶段为最小化训练数据集的基于案例推理的错误,以确定序数m外层阶段解决内层阶段没能解决的问题确定特征m的最佳序数.假定数据集中有n个特征,MIFS首先用来选择1到n的特征,并形成一连串的特征集
1.
3.3比较这n个连续的特征集,找出子集,使得CBR的训练误差(用MMRE衡量)最小.因此,m是特征的最佳序数,是最佳数据集.MMRE,mean__gnitudeofrelativeerror,平均相对误差幅度
[17]其中,n代表了对象的序数,指第i个对象的真实影响,指第i个对象的期望影响,小的MMRE指期望误差处在低水平;基于案例推理已选择的特征子集特征选择基于案例推理WEKA软件特征集预测最小化MMRE训练的数据集最大化IC;fi|s最小的MMRE最优的特征集第一阶段“filters”第二阶段“wrappers”图1基于互信息的特征选取(MICBR方法)的框架图
1.
3.7最大依赖性、最大相关性和最小冗余性的准则
[18]彭汉川,赵军阳等
[19]基于模糊粗糙集的信息熵模型提出最大互信息最大相关熵标准并根据该标准设计了一种新的特征选择方法能同时处理离散数据、连续数据和模糊数据等混合信息属性子集中单个属性与决策类之间互信息均值的最大值.相关熵来度量条件属性集的__性.基于最大互信息最大相关熵标准MmMi__提出一种新的特征选择算法FS-mMC该算法采用启发式前向搜索初始为空集每次选择具有最大互信息的属性添加到特征子集中如果该属性使子集的相关熵增大即冗余性减少则保留该属性否则去除该属性.
1.
3.8基于互信息梯度优化计算的信息判别特征提取将互信息梯度优化引入特征提取矩阵求解,提出一种信息判别分析的特征提取方法,建立了类条件分布参数模型下互信息最大化的信息判别模型,证明了互信息判别的线性变换不变性和贝叶斯一致优化,构造了一个互信息梯度优化计算的特征提取算法
[20]论述了高斯分布假设下的该互信息判据的类可分特性并证明了现有典型算法都是本算法的特例;然后在给出该互信息判据严格的数学意义基础上提出了基于矩阵特征向量分解计算最优化特征规模算法
[21]作为高维数据分离度度量的有效工具,互信息建立了特征提取向量和数据分类信息的内在关系,产生了特征提取的信息判据分析方法
[22]分析特征向量和分类判别关系的基础上,在判据目标函数中引入互信息的罚函数机制
[23]通过启发式迭代优化进行混合模型的极大似然拟合,一定程度上克服了罚函数的过度拟合
[24]
1.4Adaboost-互信息的CBRCBR智能体的集成学习,典型的继承算法包括boosting、bagging和stacking
[25]AnewproblemissolvedastheweightedvoteofalltheAgentssolutions.每个CBR智能体都有其案例库,用来整合智能体的经验.Bagging包括使用权重投票方案,但是在这种案例中中经验并没有针对每个智能体,以致互补性(complementarity)学习者的theconstructionislefttochan__andthevariability学习方法.Stacking技术中每个智能体使用不同的推理方法.
1.
4.1Adaboost算法
[26]BoostingCBR的核心问题是每个智能体的权重设置.Adaboost是该领域的最著名的学习算法,(AdaBoost算法是1995年提出的一种快速人脸检测算法,Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器弱分类器,然后把这些弱分类器__起来,构成一个更强的最终分类器强分类器.其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值.将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器.使用adaboost分类器可以排除一些不必要的训练数据特徵,并将关键放在关键的训练数据上面.)将弱学习机按其相应的权重加权组合形成强学习机,准确率越高的弱学习机权重越高Boosting训练器内部结构训练集特征向量输入
(1)--直方图计算
(2)--选择准确率最高的一维作为弱学习机
(3)--根据公式计算相应的权重,调整样本分布
(4)--转向
(3)直到到达规定的循环次数--输出加权组合后的分类器Boosting的思想源泉将一系列粗略的规则加权组合起来得到高度精确的规则Boosting的数学实质对目标函数(损失函数)的最优化问题;损失函数形式不同,优化方法不同;Boosting的理论__熵映射;对数回归;改进方向用遗传算法学习boosting权重,提出遗传算法优于AdaBoost算法(存在贪婪行为)为了Boosting目的,将在CBR智能体合作解决问题的多智能体的环境中,应用遗传算法,
1.
4.2基于熵的AdaBoost分类器Adaboost方法能够“聚焦于”那些较困难更富信息的样本上令每个样本的权重相等,对于第k次迭代操作我们就根据这些权重来选择样本点进而训练分类器Ck,根据这个分类器来提高被它错分的那些样本点的权重并减低可以被正确分类的样本权.然后权重更新过的样本集被用来训练下一个分类器Ck+1
[27].基于Boosting的条件互信息ConditionalMutualInfor__tionbasedBoostingCMIB
[28],
1.6最大熵特征选取
[29]特征选择方法MEFS__ximumentropyfeatureselection.MEFS在基于最大熵原理的基础上运用互信息和Z-测试技术采用两步方法进行空间特征选择对MEFS方法和RELIEF方法以及基于MEFS的分类方法与决策树算法ID3分别进行了实验比较
1.7互信息增益率
[30]为了获得决策系统中更好的相对属性约简%提出了一种基于互信息增益率的属性约简算法该算法考虑了所选择条件属性与决策属性的互信息%还考虑了所选择属性的值的分布情况%从信息论角度定义了基于互信息增益率的属性重要性度量方法%并以此度量为启发式信息%算法从空集开始逐步将最重要的条件属性加入到选择属性集%直到所选择的条件属性集与决策属性集的互信息等于整个条件属性集与决策属性集的互信息时%算法停止结果表明%算法能更有效地对决策系统进行约简%同时约简后的对象数目较少.中对以互信息增益和本文的互信息增益率为度量的方法进行了数据集对照
2.仿真数据用UCI机器学习数据库中的心脏病诊断数据集cleveland作为例子该数据集由医学__RobertDetrano收集包括303个病例13个条件属性age___cptrestbpscholfbsrestecythalachexangoldpeakslopecathal1个决策属性num
[31]将数据集分为两部分其中223个对象作为训练数据其余80个作为测试数据
2.1任一样本的特征的数据结构ID特征FeaturesFullname属性说明Description1Age年龄age:ageinyears2___性别___:___1=__le;0=fe__le3Cp胸痛类型cp:chestpaintype--Value1:typicalangina--Value2:atypicalangina--Value3:non-anginalpain--Value4:asympto__tic4Trestbps静脉压trestbps:restingbloodpressureinmmHgonadmissiontothehospital5Chol每毫升血液中的血清重量mgchol:serumcholestoralinmg/dl6Fbs每毫升的血糖浓度是否超过120mgfbs:fastingbloodsugar120mg/dl1=true;0=false7Restecg安静时的心电图结果restecg:restingelectrocardiographicresults--Value0:nor__l--Value1:h__ingST-Tw__eabnor__lityTw__einversionsand/orSTelevationordepressionof
0.05mV--Value2:showingprobableordefiniteleftventricularhypertrophybyEstescriteria8Thalach最高心率thalach:__ximumheartrateachieved9Exang是否运动导致心绞痛exang:exerciseindu__dangina1=yes;0=no10Oldpeak运动所导致的ST下降oldpeak=STdepressionindu__dbyexerciserelativetorest11Slope峰值ST倾斜角度slope:theslopeofthepeakexerciseSTsegment--Value1:upsloping--Value2:flat--Value3:downsloping12Ca主血管数量ca:numberof__jorvessels0-3coloredbyflourosopy13Thal心跳情况thal:3=nor__l;6=fixeddefect;7=reversabledefect14numnum:diagnosisofheartdiseaseangiographicdiseasestatus--Value0:50%diameternarrowing--Value1:50%diameternarrowinginany__jorvessel:attributes59through68arevessels
2.2样本数据样本数据(大于15)特征样本编号Age___Disese(是否患有心脏病)
12342.2验证方法利用朴素BayesNB和TFIDF算法进行分类结合新西兰Waikato大学__的WEKA软件将选择结果与CFS、Re-lief和InfoGain算法进行了比较并分别在C
4.
5、Bagging和NaiveBayes条件下对每种算法选择的各个数据集的特征子集进行分类精度评价
253.预期结果特征筛选与数据处理影响心脏病种类的动脉氧含量的信息熵计算动脉氧含量A1类心脏病A2类心脏病例数概率H1(X)例数概率H2(X)5050—6565—8080RELIEF、SSGA、MIFS和FMIFS的特征选取的比较
[32]1FeatureselectionwithRELIEF.2FeatureselectionwithSSGA.3FeatureselectionwithMIFS.4FeatureselectionwithFMIFS.
4.结果分析特征选取是基于案例推理的重要环节.当前基于案例推理的特征选取是是“‘wrappers’Koh__iJohn,
1997.”,wrappers可以产生高拟合精度,但是计算复杂和所选特征对于其他条件具有较低的普适性.另一特征选取的方式是“‘filters’Almuallim___tterich,1994;Koh__iJohn,1997”,相对于wrappers来讲计算更为简单,所选的特征对其他条件具有更高的普适性.本方案提出基于互信息的混合包装(wrappers)和过滤(‘filters’)的特征选择方法——MICBR.为了验证该方法,使用了真实的数据集第一步,过滤(‘filters’)特征选择,通过调整CBR的参数设置;第二步,所提出MICBR的与其他基于案例推理的特征选取的“包装”(wrappers)方法(exhaustivesearch,hillclimbing,andforwardsequentialselection)相比较,预测结果表明MICBR方法比其他方法所取得的训练数据集的预测结果(普适性)更好,但其调整训练数据集反而不及它们.
5.结论^1马笑潇黄席樾等.基于信息熵的诊断过程认知信息流分析[J].重庆大学学报自然科学版2002255:25-
28.^2王园吉国力魏磊.信息熵在临床定量诊断分析中的研究及应用[J].厦门大学学报自然科学版200443B08:353-
356.^3张文宇.数据挖掘与粗糙集方法[M].西安电子科技大学出版社2007:
49.^4屈利苑津莎李丽.基于事例推理的电力系统短期负荷预测[J].电力科学与工程2008242:59-
63.^5程其云孙才新周湶等.粗糙集信息熵与自适应神经网络模糊系统相结合的电力短期负荷预测模型及方法[J].电网技术20042817:72-
75.^6LiYFXieMGohTN.Astudyofmutualinformationbasedfeatureselectionforcasebasedreasoninginsoftwarecostestimation[J].ExpertSystemswithApplications2009363Part2:5921-
5931.^7唐亮段建国许洪波梁玲.基于互信息最大化的特征选择算法及应用[J].计算机工程与应用20084413:130-133^8苗夺谦胡桂容.知识约简的一种启发式算法[J].计算机研究与发展1999366:681-
684.^9贾平代建华潘云鹤等.一种基于互信息增益率的新属性约简算法[J].浙江大学学报工学版2006406:1041-
1044.^10颜艳杨慧中.一种基于互信息的粗糙集知识约简算法[J].清华大学学报自然科学版200747S2:1903-
1906.^11SteuerRKurthsJDaubCOeta.lThemutualinformation:detectingandevaluatingdependenciesbetweenvariables[J].Bioinformatics200218sup2:231-
240.^12FeatureSelectionBasedonMutualInformationCriteriaofMax-DependencyMax-RelevanceandMin-Redundancy^13UsingMutualInformationforSelectingFeaturesinSupervisedNeuralNetLearning^14NovovičováJMalíkAPudilP.FeatureSelectionUsingImprovedMutualInformationforTextClassification[M].2004:1010-
1017.^15杨打生.特征选择的信息论算法研究[D].东南大学硕士学位论文
2005.^16杨打生李泰.信息论特征选择算法的改进[J].商丘职业技术学院学报20054:
2.^17HuangChiu
2006.^18PengH.FeatureSelectionBasedonMutualInformation:CriteriaofMax-DependencyMax-Relevance[J].IEEETRANSACTIONSONPATTERNANALYSISANDMACHINEINTELLIGENCE2005278:1126-
1138.^19赵军阳张志利.基于最大互信息最大相关熵的特征选择方法[J].计算机应用研究2009261:233-235^20谢文彪樊绍胜费洪晓樊晓平.基于互信息梯度优化计算的信息判别特征提取[J].电子与信息学报20093112:2975-
2979.^21谢文彪樊绍胜樊晓平.一种可最优化计算特征规模的互信息特征提取[J].控制与决策20092412:1810-1815^22HildIIKEErdogmusDandTorkkolaK.Featureextractionusinginformation-theoreticlearning[J].IEEETransactionsonPatternAnalysisandMachineIntelligence2006289:1385-
1392.^23PadmanabhanMandDharanipragadaS.Maximizinginformationcontentinfeatureextraction[J].IEEETransactionsonSpeechAudioProcessing2005134:512-
519.^24Leiva-MurilloJMandArtés-RodríguezA.Maximizationofmutualinformationforsupervisedlinearfeatureextraction[J].IEEETransactionsonNeuralNetworks2007185:1433-
1440.^25LópezBPousCPlaAetal.BoostingCBRAgentswithGeneticAlgorithms[M].2009:195-
209.^26Boosting原理及在分类上的应用^27刘天键.基于熵的特征选择的AdaBoost改进算法[J].闽江学院学报2009302:60-
64.烂文献^28CaifengShanSGPeterW.McowanConditionalMutualInfomationBasedBoostingforFacialExpressionRecognition[J].2005^29宋国杰唐世渭杨冬青王腾蛟.基于最大熵原理的空间特征选择方法[J].软件学报.200314:9^30贾平代建华潘云鹤朱淼良.一种基于互信息增益率的新属性约简算法[J].浙江大学学报工学版.200640:6^31UCI机器学习数据库网址.UCIRepositoryofmachinelearningatabases[DB/OL].http://www.ics.uci.edu/~mlearn/MLRepository.html.^32SánchezLRosarioSuárezMVillarJRetal.Mutualinformation-basedfeatureselectionandpartitiondesigninfuzzyrule-basedclassifiersfromvaguedata[J].InternationalJournalofApproximateReasoning2008493:607-
622.。