还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
SAS数据仓库与数据挖掘一从业务数据中提炼决策支持信息的解决方案所需的数据重组丰富的决策数据处理能力在有的所谓数据仓库产品的宣传中说为了处理数据他们有各种函数功能供编程使用这显然是极其不够的为了更有效地支持决策,可能需要进行广泛、深入的数据挖掘Data Mining工作SAS在这方面有世界领先的丰富的决策支持数据分析、处理软件首先SAS/MDDB可帮你构造最适宜OLAP操作的多维数据结构SAS/STAT覆盖了所有的实用数理统计分析方法,是国际上统计分析领域的标准软件它提供了十多个过程可进行各种不同模型或不同特点的回归分析;为多种试验设计模型提供了方差分析工具;在多变量统计分析方面,为主成分分析,相关分析,判别分析和因子分析提供了许多专用过程;还包括多种聚类准则的聚类分析方法……等SAS/ETS提供了丰富的计最经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具SAS/OR提供了全面的运筹学方法SAS/IML提供了功能强大的面向矩阵运算的编程语言,帮助你研究新算法或解决SAS系统中没有现成算法的专门问题SAS/INSIGHT是一个可视化的数据探索工具它将统计方法与交互式图形显示融合在一起,为你展现了一种全新的使用统计分析方法的环境还有SAS的人工神经元网络和SAS/ASSIST......等,具有很大伸缩性的,适合各个层次,各种类型人员使用的工具灵活多样的结果展现方式分析结果的展现方式对决策时人的判别有重大的影响SAS也有众多的方式,方法供你选择在Base SAS中就有从简单列表到比较复杂的统计报表和用户自定义的式样复杂的报表的能力;SAS/ER EnterpriseReport更是为企业级的决策过程提供了报告的制作能力;SAS/GRAPH是一个强有力的图形软件包,可将数据及其包含着的深层信息以多种图形生动的呈现出来......0从各种数据源主动的取出数据;经过清理、整合;再按决策支持的需要分别主题,重组数据;按照时序节奏不断地自动装载、更新数据仓库;用世界权威的,卡富的数据处理工具进行决策分析•最后以多种形式将决策支持的意见呈现给你这就是完整的决策支持数据仓库解决方案再次提醒您在购买数据仓库产品时注意其必不可少的技术环节!SAS数据仓库的体系结构数据库技术对计算机应用的推动发挥了巨大的作用,特别是建立在E.F.Codd提出的E-R理论基础上的关系型数据库更是对OLTP(联机业务处理)应用开拓了广阔天地1994年E.F.Codd曾回答一个提问为什么对一个运行十分良好的基于E-R理论的关系数据库进行查询,以制作•个较大型的报告时,其响应速度特别慢他说运行数据库是基于OLTP需求环境设计的,这已有太多的成功事例但现在是OLAP(联机分析处理,这个概念述语E.F.Codd在此第一次提出)类型的需求要实现OLAP就要有适应它的,整合的,快速的,多维的信息架构和查询机制SAS数据仓库就是一个适应于对企业级的数据、信息进行重新整合,适合多维、快速查询;进行OLAP操作和决策支持的数据、信息的采集、管理、处理和展现的架构体系可用下图表示环境SAS数据仓库的体系结构——数据仓库1------主题I主题表系统主题表
1.....主:题表n汇总表组1|SAS或DBMS汇总层次1……SAS或DBMS汇总层次6I-------MDDB1……MDDBn……----汇总表组n......信息市场I宿息市场项目
1......信息市场项目n......宿息市场n……±题°数据市场组1|数据市场1……数据市场n।---信息市场I……信息市场n......数据市场组n……数据仓库n......运行数据定义组1运行数据定义1|数据文件I......数据文件n।---外部文件1……外部文件n……------运行数据定义n……运行数据定义组n环境Enviroment环境是SAS数据仓库的体系结构的总根,它由两大部分组成一部分是分别含有不同主题内容的若干个数据仓库;另一部分是对数据源的定义这构成了从数据采集到直接应用的完整的支持体系数据仓库Dala Warehouse可以存在多个数据仓库,这是为了使用的方便在一个大的企业或组织中不同部门在进行决策分析时可能使用的是徊然不同的数据,重新整合后就没有必要将它们放在一起了在体系结构层次中的数据仓库主要是管理性的作用,其中有对数据仓库所有组成单元的解释性数据-Metadata在每个数据仓库中还可以设置若干个主题,这•般是同•部门中支持不同决策内容对应的数据主题是较大的数据载体,相对精简或汇总一些的是所谓数据市场,在一个数据仓库中亦可存在若干个数据市场主题Subject在每个主题中有•个主题表系统,其中放置与此主题相关的各种数据为了支持决策方便还设置了若干个数据的汇总表组进一步为了支持决策的方便还有若干个信息市场组,其中放置的是对数据处理后产生的决策支持信息、主题表系统Detail这里放置的就是从各个数据源取出,经过清理、整合的原始数据为了使用和管理的方便,这些数据可放在多个表中主题表Detail Table从运行系统数据源取出的数据,分别组成这里的若干表它们可能是实际的表,也可以是一些逻辑视图View从本质上讲,它们和原来各个运行系统数据源的数据内容是一致的但是为了支持决策数据处理的使用方便,而对数据的结构进行了重组为了决策支持数据处理工作的方便,和提高了工作的效率,在数据重组过程中,可能还要增加一些数据冗余汇总表组Summary Groups在汇总表组中定义进行数据汇总处理时的层次维数和所分析的变量当汇总表组是按SAS数据集和DBMS格式存放时可有六个层次,若是采用SAS的多维数据库产品MDDB时则可有任意多个层次实际上数据汇总就是最常用的决策支持数据处理手段,或有时是在汇总数据的基础上再进行进一步的决策支持数据处理汇总表组可以有若干个,也就是说可以对多种变量分别进行不同方式的汇总处理汇总层次Summary Levels汇总一般是按时间进程而执行的汇总层次就是表示你所选择的数据汇总处理的时间维,如日、周、月等信息市场Information Marts这是信息市场的分组,在一项主题中可以有若干组信息市场一般来说是按不同的决策支持内容需要进行分组的之所以要称之为“信息市场”,这正是体现了设置这样一个机制的目的要让决策者象到了一个信息市场一样,能最方便,最快捷的取得决策支持所需要的信息信息市场项目Information MartItems这是信息市场中一项项具体的信息,它是对数据仓库中的数据处理后产生的结果在一个企业或组织中决策目标并不总是随机的,相反总是有一些要经常反复进行的决策工作,但是随着时间的进程,支持决策的依据在不断发展、变化利用数据仓库架构就可以对这样的决策支持数据处理工作自动的及时执行当人们需要决策支持时,马上就可以得到这些信息的支持信息市场项目可以是一岫报表、图形或分析的结果它也可以是一项应用功能的输出你在调用这样的项目时,可以是即时启动此项应用功能,也可以将它们设定成在数据仓库更新时作为系统运行的一部分这样,就在可能的最早时间形成了决策支持的信息,为支持决策创造最大限度的快捷和方便数据市场组Data MartGroups这是对数据市场项目的分组,在一个数据仓库中可以有多组数据市场这也是按内容的不同进行分组的和“信息市场”一样“数据市场”也是一个形象化的表达词汇要让决策者能最方便的取得决策支持所需要的数据数据市场Data Marts有时决策就是依据某些数据,但让决策者在浩如烟海的企业信息系统中找出这些数据可能并非易事正是为了这样地目的设置了数据市场它实际上就是为了各种特殊需要专门设计的数据表特别是对一些要紧急查询的内容设置这样的数据表,就更有必要你可以注意到数据市场不是设置在每个主题内,而是设置在数据仓库的范畴内,这也就是说,你可在以分主题的方式对原来运行数据重组的基础上,为了某种支持决策的需要,再跨主题进行数据的重组可以想象,这给你随着企业管理的发展,在要求你为了业务重组而进行数据重组时,SAS数据仓库技术为你创造了可持续增长的、无限的数据重组的广阔天地运行数据定义组Operational DataDefinition Group这是对要从数据源取出的数据进行定义的分组企业可能有许多数据源,比如说,它们是放在不同的计算机系统中的,你就可以分系统设置数据定义组这从运行、管理上看,或者说从开发文档上看都是比较清楚的运行数据定义Operational DataDefinition在这里定义你要取出的数据前面已述SAS不仅有多种方式可从各种环境中取出数据,而且可以通过SAS/ACCESS在SAS系统中启动这些操作所以这里就是你在SAS/ACCESS中设定的逻辑视图View的描述由于取用对象的不同,它亦可能是SAS语句PROC SQL的逻辑视图View的描述,或是DATE STEP逻辑视图View的描述由上述内容可以看出SAS数据仓库有一个十分完善的体系结构不仅为你建立决策支持系统提供了完整的解决方案,而且为今后的持续发展留下了广阔的天地这也正是SAS获得数据仓库最佳产品奖的原因所在SAS数据仓库的开发利用SAS技术建立数据仓库,在全世界已有数以千计的成功先例,从而也积累了开发的经验SAS研究所愿与你分享这些经验亦即在提供SAS数据仓库软件产品时,还可向你提供建立数据仓库的方法学,咨询服务,以至建立数据仓库的服务数据仓库并不等同于数据库,数据仓库也有其开发的特点根据SAS的经验建立一个数据仓库会有以下五方面的工作*任务和环境的评估*需求的收集和分析*构造数据仓库*数据仓库技术的培训*回顾、总结再发展任务和环境的评估数据仓库是建立在原有的运行系统之上的因此要结合单位的现状来明确数据仓库的目标任务除了业务现状外,特别要搞清任务所面对的数据源所在系统和其中的数据的状况通过对这些情况的评估,看建立数据仓库的这个任务是否是可行的;所能建立的数据仓库是不是用户所期望的;在此有没有不可逾越的障碍最好能确定评定将来数据仓库系统成功与否的基本原则开展评估工作一定要有高层负责人参加,最好他就是将来使用数据仓库部门的负责人这样从他这里就可以了解到全部的业务工作状况他也最清楚今后的工作FI标及对任务的期望,以及和竞争时手比较有什么差距在评估工作开展过程中,他应当及时的提出问题,并检查、回顾工作的进展在他的领导下要组成一个项目组,并有以下人员参加项目总负责人,与数据仓库相关的所有业务单位的负责人,计算机软/硬件负货人,向数据仓库提供数据的数据库管理员以及网络方面的人员项目组要进行项目定义,并首先按要达到的目标初步确定数据仓库的主题进•步说明这个主题的层次结构,及所涉及的相关业务处理最好还能设立几个可量化的工作指标除了业务工作外,还要对相关的信息技术状况进行评估数据源的数据库类型,工作平台,数据量,数据的质量等;将要建立数据仓库的环境状况,以及所利用的网络技术状况全部评估工作应有正规的文档记载,并交数据仓库负责人审定需求的收集和分析数据仓库是为支持决策服务的故首先要看决策者(亦即领导)的需求,即现在最重要的工作n标是什么;怎样衡量这个n标是成功的达到了现在是怎样获得决策支持信息的;和竞争对手比差距是什么领导的决策总是由一批具体工作人员支持的,所以还应当从他们这里收集具体的需求,并加以分析•对应前面所定的主题,现在利用什么信息或报表(最好有实例);这报表中还缺什么信息;这报表是如何制作出来的;有没有紧急、突发的决策信息要求,其内容是什么;还希望数据仓库为他们做些什么等在此基础上确定当前共同的业务问题是什么;希望开发怎样的功能来解决这些问题由此定义好业务处理的规则;初步估计功能的规模和数据量;与此同时还要定义、理清业务和编程需要的代码基于上述业务需求和分析即可开始制定系统的逻辑模型此外,还要对实现这些业务需求时,对信息技术的需求加以分析每一个数据源的物理存储状况、运行平台、数据质量如何确认硬件、网络和软件的限制条件;数据装载和更新的策略和问题数据量和占用空间的估计;从信息技术看数据的质量有什么问题等最后,还是制作文档其内容应包括*项目概述*差距分析*系统基本架构图示*逻辑模型*物理模型*数据仓库初始装载和更新的策略*数据仓库的运行计划*决策信息展现的希望和需求*数据仓库建成的时限构造数据仓库构造数据仓库包括了数据仓库的管理,数据仓库的组织和决策支持信息的展现三部分数据仓库的管理通过建立以下诸项内容实现之设置和编写取用数据的程序;设置和编写数据转换程序;设置和编写数据更新程序;设置和编写运行的接口程序建立这•阶段的所有管理用数据——Metadata;此阶段所有程序统一标准命名和建档数据仓库的组织包括了规划数据仓库的初始装载;在数据仓库中建立所需的索引;除了数据表外,建立数据视窗(View);进行数据仓库及工作平台的安全检查;装入数据和应用功能;建立这一阶段的所有管理用数据——Metadata决策支持信息的展现SAS有强大的工具软件可供使用SAS/STAT是国际上统计分析领域的标准软件,涵盖了所有实用数理统计分析方法;SAS/EIS是一个成熟的决策支持表现工具,也是快速开发工具并采用了面向对象的开发方式;SAS/AF也是一个应用开发工具,并含有众多现成功能的SAS软件作为方法库SAS/ETS提供了丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具;SAS/GIS是集地理信息系统与空间数据显示分析于一体的软件;SAS还提供了人工神经元网络的功能SAS/ASSIST采用了面向菜单的驱动界面,借助它可使用许多其它SAS软件;SAS/INSIGHT是一个可视化的数据探索工具;SAS/OR提供了全面的运筹学方法;通过ODBC,OLE等还可集成许多现有的桌面工具利用这些工具可预先制作好许多常规的信息市场项目(Infomarl)供支持决策使用,亦可利用这些工具直接操作主题数据以得出新的决策支持信息数据仓库技术的培训数据仓库是支持其使用者进行决策的,即使是建成了非常好的数据仓库,人对系统的运作仍是决定性的因素人利用数据仓库决策的成功才是数据仓库的成功,所以建成数据仓库后要认真进行最终用户的培训I首先要向用户介绍数据仓库全部的情况,用户掌握的越深入,将来运用的就更好;数据是向用户介绍的重点,不仅要介绍详尽的数据内容,而且要介绍系统如何保障数据的质量、完整性和可靠性,并且让他们在今后使用中进一步注意这些问题,很可能这就是以后维护,改进的地方;Metadata是数据仓库的管理性数据,要告诉用户什么是Metadata,在何处,如何使用它;图形化的界面和各项功能当然是培训的主要内容;还要介绍数据的更新计划和此后数据的可用性;汇总层次的增加,可能是用户新需求的内容,要让他们知道如何和开发人员•起完成这件事;最后,不要忘记安全规范的培训假如数据仓库的管理员不是系统的开发者,那末该员亦属培训范围培训内容是数据仓库的逻辑和物理模型;从OLTP系统到数据仓库的数据流;全部的数据转换操作;所有Metadata的所在和内容,管理员对Metadata要有相当的熟悉程度才能胜任工作;数据装载和更新的策略;所有安全性问题及其测度;所有程序文档资料的管理;等等回顾、总结再发展在数据仓库的开发过程中要不断的回顾哪些地方可以做的更好;业务部门对开发的支持是否到位;双方如何合作的更好;什么是业务部门最立竿见影的效益,知道了就要抓住它;什么是开发部门最立竿见影的效益,就要利用它更好地为用户服务开发有了一定进展,就要慎重地看看主题的范围选择是否恰当是否应参与的部门都积极主动地参与了工作;有什么阶段成果;发布这些成果的反映如何;业务和开发部门分别有什么反映;公司层的领导是否看到了初步成果;若有问题及时改进在数据仓库开发完成后要检查数据仓库的采用是否对公司有所推进;数据仓库的采用是否提高了公司的竞争优势;投资的回报率是否达到了预计的水平;是否有公司的其它部门可利用数据仓库获得效益;有没有得到未曾期望过的效益数据仓库的开发往往是从一个简明的急需主题开始,从中积累经验,并由此也可能会激发用户的新需求,然后不断犷大数据仓库的内容和规模只要你稳扎杉打,循序渐进,SAS一定能帮你建立好你们的数据仓库,并使您的部门利用它获得更大的效益SAS的数据仓库产品SAS/WA SAS的数据仓库是一个非常成熟的软件它有一个顺应需求的发展历史,在发展中不断完善,实际上已是本领域的权威产品连续两年的获奖更说明了业界的拥戴SAS的数据仓库产品SAS系统,多年来就以它的数据的存取,管理,分析和展现能力供用户作为决策支持的工具来使用SAS的数据仓库产品---------SAS/Warehouse Administrator(简称SAS/WA)一方面将原有的这些工具整合在一起;另外,为了更规范地建立,维护数据仓库和更方便地对数据仓库和数据市场进行存取,又添加了新的功能和工具*定义数据仓库及其主题*传送和汇总整理数据*更新汇总数据*建立,管理和取用查看•metadata*设置数据市场定义数据仓库及其主题在SAS/WA中设置了友好的用户界面供用户定义自己数据仓库的构成在前文中已介绍过SAS数据仓库的体系结构在SAS/WA导引的定义过程中保证了数据仓库的规范化和体系中诸元素的内在的应有联系在进行这些定义后,按照这些联系就形成了一个规范化的数据仓库体系SAS/WA在每一步的操作中都提供了缺省的元素特性,但是根据你的特殊需要,也可以对它进行更改在这里特别要指出的是你所定义的数据仓库,可以建立在SAS数据库中;可建立在一般的DBMS中;还可以建立在SAS的多维数据库产品SAS/MDDB中在SAS/MDDB中可形成E.F.Codd所指出的运作OLAP的最佳数据结构一多维数据结构这将大大提高数据查询、访问的速度和方便程度传送和汇总整理数据这是通过SAS/WA的Process的Editor来进行的,它可以定义四种处理过程*运行数据的映射(M叩ping)在此定义从输入数据源中取出哪些数据,这些数据如何转换,然后将它们装载到哪个主题数据表中去*数据传送将数据从其所在的计算机系统中选出,SAS/WA对它进行相应处理,然后使用PROC SAS研究所和SAS系统1利用SAS技术建立你的数据仓库2SAS数据仓库的组成4SAS数据仓库的体系结构6SAS数据仓库的开发9SAS的数据仓库产品-SAS/WA12SAS帮助你进行数据挖掘15SAS的数据挖掘的方法论-SEMMA17SAS数据挖掘的集成软件工具-SAS/EM EnterpriseMiner21决策支持智能化24企业级的报表制作工具-SAS/ER+SAS/MDDB+SAS/IntrNet27在网上展开SAS功能31UPLOAD或者PROC DOWNLOAD再把它送到数据仓库所在计算机系统中在图1中表示了数据的传送过程的•个示例*记录选取器按照你规定的某些选取规则选出一个数据子集形成数据仓库的其它元素,如相应的表,数据市场或是VIEW等*用户出口除了SAS/WA所规定的数据仓库的操作过程外,用户在各个环节均可插入认为需要的数据操作,如图I所示■主题表更新汇总数据数据仓库中的数据是按你确定的时序,自动的进行主题数据更新的更新实际上有两种含义即在原有数据表中进行某些数据的更新;或者是产生一个新的时间区间的数据新版本无论是哪一种情况,SAS/WA都会按你预先规定的规则产生一个新的汇总数据因为汇总数据可能对数据仓库中的许多信息元素都有关系,这样就保证了全体信息的一致性建立,管理和取用查看metadata企业的数据仓库可能是从许多不同的大系统中取出数据建立.的,因此其规模可能比原有的数据库都要大的多面对这巨大的数据仓库,从建立伊始就要保证其可管理性在通过SAS/WA建立数据仓库的过程中,将形成一个若干个数据仓库共用的metadata其中包括了数据仓库中的各个元素所存放的地方在每台计算机系统中都有哪些数据仓库的什么内容*如何从运行系统的数据源中取出所需的信息*其它数据仓库管理员和用户间需要沟通的信息metadata不仅是数据仓库的文档资料,可供管理,维护人员使用,而且亦可供用户查询,使之更好的了解数据仓库,提高自己的使用水平设置数据市场数据市场(DalaMart)是为了更方便用户的信息利用而设置的日常的许多决策支持就是需要相应的一组数据数据市场的设置,以其恰好对应需求的针对性;信息的广泛综合性(可能是跨主题的,预先处理好的);以及和整个数据仓库更新的同步节奏;最及时的满足了用户决策支持的需要SAS数据仓库的方法学作为一个成熟的产品SAS不仅提供给你一套数据仓库的计算机辅助设计工具;而且向你提供SAS建立数据仓库的成功经验——SAS数据仓库的方法学包括*如何建立好数据仓库的开发队伍*如何进行数据仓库的需求分析*在一定系统环境中确定建立数据仓库对信息技术的需求*数据仓库的设计和原形化开发方法*数据仓库的投运SAS的这些成功经验可以帮你少走弯路,开发迅速;同时,依照SAS的成功经验还给你创造了一个使决策支持系统从无到有、从小到大可持续稳定地发展的局面SAS数据仓库系统的全方位集成性数据仓库的数据来源可能是许多的计算机系统和许多不同的数据载体在一个企业中为了不同业务部门的需要亦可能要建立多个数据仓库,这些数据仓库也可能要建立在不同的系统平台上SAS可以适应最复杂的环境,建立统一管理,更新的集成式的数据仓库系统如图2所示例图2SAS系统支持的多系统环境下的数据仓库架构示例在这个系统中有*统一的数据仓库管理机制——SAS/Warehouse Administrator*对应多数据源和多个数据仓库有统一的文档资料——metadata*利用SAS跨平台、跨数据库的存取能力实现数据的统一管理和更新SAS系统的强大的数据仓库技术,SAS和业界绝大多数厂家的长期友好合作所形成的跨平台和环境的可操作能力是你建立数据仓库时的唯一最佳选择SAS帮助你进行数据挖掘早期的计算机主要就是用来进行数据处理或称数值计算的后来随着计算机技术及其周边设备和通讯能力的发展,计算机更多地用于•了大最繁杂事务的在线处理,生产设备的实时控制等在此过程中,计算机系统积累了越来越多的数据,数据处理的任务就更加繁重到今天,即使是发展中的我们中国,在一个企业中有数以几十或上百GB10字节计的生产经营数据已不是什么希奇的事情了企业的数据和由此而产生的信息是企业的重要财富它最真实、具体的反映了企业运作的本质状况但是,面对堆积如“山”的数据,你可能并未看清企业运作的本质规律是什么,或者说你至少是未能全部看清楚面对激烈竞争的市场经济,企业的经营和管理者任何不符合客观事物规律性的决策都会给企业带来损失,甚至失败运用有力的工具,不断地探索企业成败、得失的原委,并以此不断完善企业运作,这是每一个成功的企业家必不可少的工作任务美国SAS软件从60年代在北卡洲立大学开创伊始就致力于计算机数据处理的研究几十年来无数的成功事例使人们推崇SAS为国际上标准的数理统计分析软件;进而,SAS的丰富数据采集、数据管理、数据分析和信息展现的能力,又使之成为决策支持的最好的工具;现在SAS又推出了套装的SAS/EnterpriseMiner这一企业级的数据处理分析和决策支持软件包SAS系统的软件和这些软件运用的无数成功经验,一定能帮你从企业堆积如“山”的数据中“挖掘”出隐藏着的规律性,以支持你正确的经营决策SAS的数据挖掘软件集成了一系列有效的技术手段全面地支持你的工作首先是支持你的数据重组工作在你的企业或组织中或许己经有了成功的MIS系统、CIMS系统或是有了大量卓有成效的过程控制系统,甚至是办公自动化系统其中的数据体系对应着一项项事务处理和•个又•个控制环节,它们定能完美的支持其原有的工作但当你从企也级的角度去审视,并想进一步分析处理时,你会感到这些数据过于分散,数量越来越大,并难以整合美国数据挖掘技术开拓者Gregory Piatetsky-Shapiro曾戏言说“原来曾希望计算机系统成为我们智慧的源泉,但从中涌出的却是洪水般的数据!”其实不必埋怨数据太多,也不必埋怨原来的数据结构不好,它们是适应原有工作任务的,只是不适合你现在的要求而已要支持你的企业级的决策,就是需要“洪水般的数据量”,但是要面向企业级的工作任务对其进行重组SAS有连续两年获奖的数据仓库系统支持你进行数据重组,并以全新的数据、信息的结构形式支持你的全新的工作方式这在前面五篇连载文章中已作了详尽的介绍建立数据仓库,这是进•步能有成效的进行数据挖掘的基础工作要看清企业或组织运作的状况,第一步就是能查询到反映你所关心事情的相应数据、信息以SAS的多维数据库产品MDDB构造的数据仓库从物理结构上保证了你查询的迅速、方便E.ECodd在提出在线分析处理OLAP概念时,多维数据结构是实现其任务的第一项要求一些简单的决策支持所需要的就是有针对性的数据在数据重组后的数据仓库中还建立了所谓数据市场Data Marts,它就可以更针对决策支持的需要而设计,其中还可综合不同层次的汇总数据和跨数据仓库主题的数据SAS软件研究所对数据挖掘所下的定义是数据挖掘是按照既定的业务目标,对大量的企业数据进行探索、揭示隐藏其中的规律性并进一步将之模型化的先进、有效的方法对数据的探索、挖掘首先要有一个明确的业务FI标一组生产数据可作生产能力的分析;可作生产成本核算的分析;亦可作影响产品质量诸因素的分析目标决定了此后数据挖掘过程的各种运作,并导引了运作的方向虽然说数据挖掘的业务目标在过程中不是不可修正的,也应当在工作进程中不断的进一步明确化,但其基本原则内容要保持稳定不变,否则数据挖掘工作是难以有效的进行的这里所指的大量企业数据最好是按照数据仓库的概念重组过的,在数据仓库中的数据、信息才能最有效的支持数据挖掘假如所取用的数据并不足以反映企业的真实情况,当然也不可能挖掘出有用的规律数据仓库的数据重组,首先是从企业正在运行的计算机系统中完整地将数据取出来所谓完整,就是决策支持目标所涉及的各个环节不能有遗漏;其次各个环节的数据要按一定的规则有机、准确地衔接起来从决策支持的主题来看,这重新组织过的数据,以极易取用的数据结构方式,全面的描述了该主题有了反映业务主题全貌的数据后,在进行数据的分析、探索时,对于不同的人,可能会采用不同的方式方法Gartner Group在评价数据挖掘工具时,也特别提到了面对各种不同类型人员的可伸缩性和完整性SAS支持各层次用户*业务水平和数学水平可能比较•般,对这样的用户提供方便的数据查询是非常重要的实际上早期的决策支持主要就是数据查询的支持可能也要做一些简单的数理统计分析若统计分析的要求是较明确的,可以事先做好,向他们提供统计分析的结果这“『做成SAS数据仓库中的信息市场Infoiination Mart对应他们随机的需求,应当提供菜单式选择的方便工具.*业务水平较高,但数学水平一般,旦没有时间和兴趣再钻研数学方法的人,除了以上资源外,还应提供能简便的实现各种常用的数理统计的工具让他们不必受累于繁杂的过程,通过简单的需求设定,即可执行他们需要的操作*有计算机和数学知识,但对、业务的熟悉程度•般的人员对他们要提供较全面的数据处理工具,如数理统计;聚类分析;决策树;人工神经元网络;……等*对有很深计算机和数学造诣的数据分析专家不仅要提供上述环境,而且还要提供实现各种算法的工具和开发平台SAS系统提供了适合各类人员使用的既完整,乂有伸缩性的摸块化的工具通过探索和模型化所得的结果可分成两种类型一种是描述型的;另一种是预测型的描述型的结果是指通过数据挖掘最化的搞清了业务目标的现状如在原来工艺规程中允许的范围内,生产出来的产品质量水平波动很大通过数据挖掘找出了这同一种产品在什么条件卜.产出的产品质量比较好;什么条件下产出的产品质量较差通过数据挖掘,描述清楚了产品质量高低的规律性,这就为修改原来的工艺规程提供了决策的支持依据通过数据挖掘还可以建立起企业或某个过程的各种不同类型模型这些模型不仅能描述当前的现状和规律性,而且利用它还可以预测当条件变化后可能发生的状况这就为企业开发新产品;甚至于为企业业务重组提供决策支持依据在世界走向信息化的今天,充分利用企业的信息资源,挖掘企业和所对应市场的运作规律性,以不断提高企业的经济效益是先进企业的必由之路世界有名的Gartner Group咨询顾问公司预计不久的将来先进的大企业将会设置“统一数据分析专家”的工作岗位在以SAS数据仓库和数据挖掘应用获奖的美国LTV钢铁公司阐述其获奖文章的题目是“DW+DM=Saving亦即在企业中建立数据仓库进行数据挖掘就是挖取企业的经济效益SAS的数据挖掘的方法论・SEMMA正象是你拿个镐在山上挖几下不能算是开采矿山一样,用数理统计方法或人工神经元网络作个数据分析,也不能说就是在进行数据挖掘了要开采矿山,首先要按照人类总结千百年来经验所形成的理论规律去找矿;发现矿藏后还要根据其实际地质情况,有针对性的采用相应的方法最有效的挖掘才能获得有价值的宝藏同样,要想有效地进行数据挖掘也必须要有好的工具和一整套妥善的方法论可以说在数据挖掘中你采用的工具、使用工具的能力、以及数据挖掘过程中的方法论在很大程度上决定「你能开拓的成果SAS研究所不仅有丰富的工具供你选用,而且在多年的数据处理研究工作中枳累了一套行之有效的数据挖掘方法论一SEMMA,通过使用SAS技术进行数据挖掘,我们愿意和你分享这些经验*Sample数据取样*Explore——数据特征探索、分析和予处理*Modify-----问题明确化、数据调整和技术选择*Model—模型的研发、知识的发现*Assess——模型和知识的综合解释和评价Sample------数据取样当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据这就象在对开采出来矿石首先要进行选矿一样通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律性更加凸现出来通过数据取样,要把好数据的质量关在任何时候都不要忽视数据的质量,即使你是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何因为通过数据挖掘是要探索企业运作的规律性的,原始数据有误,还谈什么从中探索规律性若你真的从中还探索出来了什么“规律性”,再依此去指导工作,则很可能是在进行误导若你是从正在运行着的系统中进行数据取样,则更要注意数据的完整性和有效性再次提醒你在任何时候都不要忽视数据的质量,慎之又慎!从巨大的企业数据母体中取出哪些数据作为样本数据呢?这要依你所要达到的目标来区分采用不同的办法如果你是要进行过程的观察、控制,这时你可进行随机取样,然后根据样本数据对企业或其中某个过程的状况作出估计SAS不仅支持这一取样过程,而且可对所取出的样本数据进行各种例行的检验若你想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范围变化的数据,以使其有代表性你还应当从实验设计的要求来考察所取样数据的代表性唯此,才能通过此后的分析研究得出反映本质规律性的结果利用它支持你进行决策才是真正有效的,并能使企业进一步获得技术、经济效益Explore一数据特征探索、分析和予处理前面所叙述的数据取样,多少是带着人们对如何达到数据挖掘目的的先验的认识进行操作的当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求其中有没有什么明显的规律和趋势;有没有出现你所从未设想过的数据状态;因素之间有什么相关性;它们可区分成怎样一些类别……这都是要首先探索的内容进行数据特征的探索、分析,最好是能进行可视化的操作SAS有SAS/INSIGHT和SAS/SPECTRAVIEW两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形它们不仅能做各种不同类型统计分析显示,而且可做多维、动态、甚至旋转的显示这里的数据探索,就是我们通常所进行的深入调查的过程你最终要达到的目的可能是要搞清多因素相互影响的,十分复杂的关系但是,这种复杂的关系不可能一下子建立起来一开始,可以先观察众多因素之间的相关性再按其相关的程度,以了解它们之间相互作用的情况这些探索、分析,并没有一成不变操作规律性;相反,是要有耐心的反复的试探,仔细的观察在此过程中,你原来的专业技术知识是非常有用的,它会帮助你进行有效的观察但是,你也要注意,不要让你的专业知识束缚了你对数据特征观察的敏锐性可能实际存在着你的先验知识认为不存在的关系假如你的数据是真实可靠的话,那末你绝对不要轻易地否定数据呈现给你的新关系很可能这里就是发现的新知识!有了它,也许会导引你在此后的分析中,得出比你原有的认识更加符合实际的规律性知识假如在你的操作中出现了这种情况,应当说,你的数据挖掘已挖到了有效的矿脉在这里要提醒你的是要有耐心,做几种分析♦,就发现重大成果是不大可能的所幸的是SAS向你提供了强有力的工具,它可跟随你的思维,可视化、快速的作出反应免除了数学的复杂运算过程和编制结果展现程序的烦恼和对你思维的干扰这就使你数据分析过程集聚于你业务领域的问题,并使你的思维保持了一个集中的较高级的活动状态,从而加速了你的思维过程,提高了你的思维能力Modify—问题明确化、数据调整和技术选择通过上述两个步骤的操作,你对数据的状态和趋势可能有了进一步的了解对你原来要解决的问题可能会有了进一步的明确;这时要尽可能对问题解决的要求能进一步的量化问题越明确,越能进一步量化,问题就向它的解决更前进了一步这是卜分重要的因为原来的问题很可能是诸如质量不好、生产率低等模糊的问题,没有问题的进•步明确,你简直就无法进行有效的数据挖掘操作在问题进一步明确化的基础上,你就可以按照问题的具体要求来审视你的数据集了,看它是否适应你的问题的需要Gartner group在评论当前一些数据挖掘产品时特别强调指出在数据挖掘的各个阶段中,数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态,这才能保证数据挖掘有效的进行针对问题的需要可能要对数据进行增删;也可能按照你对整个数据挖掘过程的新认识,要组合或者生成一些新的变量,以体现对状态的有效的描述SAS对数据强有力的存取、管理和操作的能力保证了对数据的调整、修改和变动的可能性若使用了SAS的数据仓库产品技术时就更进一步保证了有效、方便的进行这些操作在问题进一步明确;数据结构和内容进一步调整的基础上,下一步数据挖掘应采用的技术手段就更加清晰、明确了Model—模型的研发、知识的发现这一步是数据挖掘工作的核心环节虽然数据挖掘模型化工作涉及了非常广阔的技术领域,但对SAS研究所来说并不是一件新鲜事自从SAS问世以来,就一直是统计模型市场领域的领头羊,而且年年提供新产品,并以这些产品体现业界技术的最新发展按照SAS提出的SEMMA方法论走到这一步时,你对应采用的技术已有了较明确的方向;你的数据结构和内容也有了充分的适应性SAS在这时也向你提供了充分的可选择的技术手段广泛的数理统计方法;人工神经元网络;决策树……等正如Ganner group评论中所指出的数理统计方法还是数据挖掘工作中最常用的主流技术手段在SAS的SAS/STAT软件包中就覆盖了所有的实用数理统计方法,并成为国际上统计分析领域的标准软件SAS/STAT提供了十多个过程可进行各种不同类型模型、不同特点数据的回归分析,如正交回归、响应面回归、Logistical归、非线性回归等,且有多种形式模型化的方法选择可处理的数据有实型数据、有序数据和属性数据,并能产生各种有用的统计量和诊断信息在方差分析方面,SAS/STAT为多种试验设计模型提供了方差分析工具更一般的,它还有处理一般线性模型和广义线性模型的专用过程在多变量统计分析方面,SAS/STAT为主成分分析、典型相关分析、判别分析和因子分析提供了许多专用过程SAS/STAT含有多种聚类准则的聚类分析方法.利用SAS/STAT可进行生存分析这对客户保有程度分析等特别有用SAS/ETS提供了丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具它提供方便的模型设定手段、多样的参数估计方法实际上SAS的数理统计工具不仅能揭示企业已有数据间的新关系、隐藏着的规律性;而且能反过来预测它的发展趋势,或是在•定条件下将会出现什么结果SAS以GUI式的友好界面提供了人工神经元网络的应用环境,一般的情况下人工神经元网络对数据处理的要求比较多,在处理上资源的消耗也比较大但在SAS的集成环境下,有规范的数据维护、管理机制;可在诸如Client/Server等综合调度环境中运行,这就保证了你的人工神经元网络应用更顺畅的实现人工神经元网络和决策树的方法结合起来可用于从相关性不强的多变量中选出重要的变量SAS还支持了平方自动交互检验CHAIDo分类和回归树的软件包CART也即将交付使用在你的数据挖掘中使用哪一种方法,用SAS软件包中什么方法来实现,这主要取决于你的数据集的特征和你要实现的目标实际上这种选择也不一定是唯一的好在SAS软件运行效率十分高,你不妨多试几种方法,从实践中选出最适合于你的方法和软件随着业界方法研究的进展,SAS会不断地向你提供实现它们的软件包,这将支持你数据挖掘工作可持续的发展Assess一模型和知识的综合解释和评价从上述过程中将会得出一系列的分析结果、模式或模型若能得出一个直接的结论当然很好但更多的时候会得出对目标问题多侧面的描述这时就要能很好的综合它们的影响规律性提供合理的决策支持信息所谓合理,实际上往往是要你在所付出的代价和达到预期目标的可靠性的平衡上作出选择假如在你的数据挖掘过程中,就预见到最后要进行这样的选择的话,那末你最好把这些平衡的指标尽可能的量化,以利你综合抉择你提供的决策支持信息适用性如何,这显然是十分重要的问题除了在数据处理过程中SAS软件提供给你的许多检验参数外,评价的办法之一是直接使用你原来建立模型的样板数据来进行检验假如这一关就通不过的话,那末你的决策支持信息的价值就不太大了一般来说,在这•步应得到较好的评价这说明你确实从这批数据样本中挖掘出।了符合实际的规律性另一种办法是另外找一批数据,已知这些数据是反映客观实际的规律性的这次的检验效果可能会比前一种差差多少是要注意的若是差到你所不能容忍程度,那就要考虑第一次构建的样本数据是否具有充分的代表性;或是模型本身不够完善这时候可能要对前面的工作进行反思了若这•步也得到了肯定的结果时,那你的数据挖掘应得到很好的评价了再一种办法是在实际运行的环境中取出新鲜数据进行检验如在一个应用实例中,就进行了一个月的现场实际检验SAS研究所和SAS系统SAS系统是用于严肃数据分析和决策支持的大型集成式模块化软件包六十年代末到八十年代初以统计分析及线性数学模型为主,并以此闻名于世故其早期名为“Sialistical AnalysisSystem“SAS”即成为SAS软件研究所SAS InstituteInc.产品的总商标SAS软件研究所跨国公司成立于1976年,总部设在美国北卡州凯瑞市Cary NorthCarolina.SAS保持了20年连续不断的两位数的业务收入增长率,现已是全球最大的私人软件公司和全球排名第九位的独立软件商缘其是私人独立软件商,免受股市和公众股东资本的操纵和影响,按自主意志把收益的很大部分再投入于研究和发展,使其研发投资比重一直保持了全球软件业的领先地位凭借这一技术优势,遍布世界的4500多名SAS员工为120多个国家的三百五十多万SAS用户提供了行业公誉的高质量技术服务和支持面对当今竞争日趋激烈、瞬息万变的世界市场经济,从国家机关到企业界的各类人员都要面对各种机遇迅速作出抉择计算机系统支持人们能做出迅即反应业务处理的能力已满足不了当今的需求,要信息技术对各个层次和各种类型决策进行支持已是IT行业发展必然趋势SAS以其具有前瞻性的技术开拓,在决策支持工具一数据仓库和数据挖掘Dala Warehouse与Data Mining方面已连年被评为“年度最佳产品”、“最佳决策支持工具工公司卓著的业绩使之被评为“全美国人们最乐意为之工作的100家公司”之一及“最佳决策支持工具的供应商”Internet已成为世界信息的通衢大道,Intran以也已成为先进企业的信息经脉SAS技术也与之有着同步的发展SAS的IntrNet产品使全部的SAS技术最大限度的实现了Web-Enableo这使得SAS原来跨多平台应用的开放机制扩展到门网络计算环境和网际应用这不仅使SAS使用更加方便,而且使那些以Thin-client运行的系统在使用SAS时节省了投资,并减少了系统维护的工作量在这里将按下面五个脉络向你系统的介绍SAS技术*SAS世界领先的数据仓库技术*SAS获最佳决策支持工具褒奖的数据挖掘技术*SAS的业务智能化技术*SAS的企业级报表制作工具*SAS的Web-Enablement你可以通过hup:〃www.sas.com/查到SAS研究所最新的技术信息你还可以通过美国SAS研究所设立在北京Tel:10-62351280-3,上海Tel:021-63582288和广州Tcl:020-87554490的办事处得到直接的咨询和技术支持数据取样SAMPLE数据探索EXPLORE数据调整MODIFY模式化4工神经MODEL网络评价ASSESS图示数据挖掘流程以上叙述的是数据挖掘的基本流程如图所示这一过程可能是要反复进行的在反复过程中,不断的趋近事物的本质,不断的优化你的问题的解决方案在各个行业SAS大量的成功实践证明了这一方法的强大威力SAS的SEMMA方法论也一定能帮助你在数据挖掘中取得成功SAS数据挖掘的集成软件工具・SAS/EM EnterpriseMiner利用SAS软件技术进行数据挖掘可以有三种方式*使用SAS软件模块组合进行数据挖掘*将若干SAS软件模块联结成一个适合你的需要的综合应用软件*使用SAS数据挖掘的集成软件工具SAS/EM在SAS数据挖掘的方法论一SEMMA的介绍中已经说明了可利用哪些SAS软件模块组合进行数据挖掘这里将向你介绍SAS数据挖掘的集成软件工具SAS/EMo SAS/EM是一个图形化界面,菜单驱动的,对用户非常友好且功能强大的数据挖掘集成软件其中集成了*数据获取工具*数据取样工具*数据筛选工具*数据变量转换工具*数据挖掘数据库*数据挖掘过程*多种形式的回归工具*为建立决策树的数据剖分工具*决策树浏览工具*人工神经元网络*数据挖掘的评价工具可利用SAS/EM中具有明确代表意义的图形化的模块将这些数据挖掘的工具单元组成一个处理流程图,并依此来组织你的数据挖掘的过程这一过程在任何时候均可根据具体情况的需要进行修改、更新并将适合你需要的模式存储起来,以便此后重新调出来使用SAS/EM图形化的界面,可视化的操作,可导引即使是数理统计经验不太多的使用者也能按照SEMMA的原则成功的进行数据挖掘对于有经验的专家,SAS/EM也可让你一展身手精细的调整分析处理过程这一强大的数据挖掘工具组合阵容,保证了可以支持企业级的数据挖掘的各个方面工作数据获取工具在SAS/EM的这个数据获取工具中,你可以通过对话框指定要使用的数据集的名称,并指定要在数据挖掘中使用的数据变量变量分为两类区间变量Interval Variable和分类变量Class Variableo区间变量是指那些要进行统计处理的变量对于这样一些变量,在数据输入阶段你就可以指定它们是否要作最大值、最小值、平均值、标准差等的处理还可给出该变量是否有值的缺漏,缺漏的百分比是多少等利用这些指定可对输入数据在获取伊始就进行了一次检查,并把结果告诉你,你可初步审视其质量如何区间变量以外的变量称之为分类变量在数据输入阶段将会提供给你每个分类变量共有多少种值可供分类之用数据取样工具对获取的数据,可再从中作取样操作取样的方式是多种多样的,有随机取样、等距取样、分层取样、从起始顺序取样和分类取样等方式随机取样在采用随机取样方式时,数据集中的每一组观测值都有相同的被取样的概率如按10%的比例对一个数据集进行随机取样,则每一组观测值都有10%的机会被取到等距取样如按5%的比例对一个有100组观测值的数据集进行等距取样,则有100/5=20,等距取样方式是取第
20、
40、
2、SQL-DSx OracleInformix SAPR/2+R/
一、整体规范的报表制作环境,是为了使企业的信息在内涵和结构上,在一个更高层次上更加通达,以促进企业的生产、经营和管理SAS/ER已从报表的设计、制作和数据收集、准备上建立了良好的机制再进一步,SAS能使这全部的运作都通过Internet和你们企业的Intranet来实现为此,SAS可向你提供SAS/IntrNet产品SAS/InirNet是一个功能非常丰富的软件包,包括了从浏览器,通过Web,到各个服务器站点,及其间各种传输方式的运作,实现了SAS的网际运行对于SAS/ER这个企业级的报表制作体系来说,它支持了*通过Internet或Intranet的浏览器即可进入SAS的企业级报表制作环境;本除了前述的联结方式外,还可通过JDBC将浏览器和SAS的服务器联结起来,这就可以获得所有SAS功能,包括SAS/ER的运作能力字网际的连通,这也开拓了数据获取的更广阔的途径;*通过Internet或Intranet的浏览器去查询多维数据库一MDDB,会使你的浏览过程更加得心应手;*通过Internet或Intranet进行报表HTML格式的传输和分发,这更是强化J’报表利用的效率、广度和方便的程度*无论是“胖”或“瘦”客户机,或是以Java最小进程Applet方式运作均可实现上述功能这是因为SAS也是Internet和Intranet世界的推进者在下一节中将进一步向你说明SAS的IntrNet的功能由于SAS研究所深厚的知识、技术背景,SAS的企业级报表制作工具有别于市场上那些简易的报表制作工具它不仅有操作方便的可用性,而且SAS强大的数据处理能力使报表的内容的编制能适应企业最广泛的需要;在Web上实现的能力,又将企业报表的制作和展现拓展到了企业的最广泛的程度面对社会主义市场经济大潮,企业要想在市场竞争中获得一席之地,进而开拓更大的空间,就一定要用最先进的技术手段武装自己强化信息技术的应用,更是企业走向知识经济的必由之路SAS以知识含量最高的信息技术支持你的企业早日获得更大的成功在网上展开SAS功能通过Internet我们可以享用世界范围的信息,借助Web技术能更高效的开展许多网际业务活动利用Web技术使原有的业务增值已成为势不可挡的潮流或许在您的企业中Intranet已把各个系统和全体员工联成一体,这一先进的集成已提高了企业运作的效率今天,所有的信息技术都要被检验在Web上实现的程度,及能否利用Web技术使之增值这就是当前新的信息技术模式在设计企业级的决策支持系统时,人们一宜.在追求要能最大限度的取得决策所需要的各种信息,而不论它存放在什么地方、或以什么格式存在;并希望不管用户面对什么样的界面,也不论他在什么地方,都能方便地得到最大程度的支持也许现在没有任何一个单一的技术产品能提供这样的服务,但是能在Web上得到最大实现的决策支持技术,恰能满足这样的需求这正是人们所追求的决策支持解决方案SAS系统多年前就支持各种类型的Client/Server客户机/服务器工作方式能适应各种数据结构、各种工作平台;能适应多层multitiered系统结构和双向工作方式,即在一个多级系统中任何平台都可以作为数据Server,应用Server、或者是Clieni等等现在,SAS的SAS/IntrNet又开拓了SAS系统技术在网际应用的新天地下图表示了SAS系统支持的Web实现解决方案CLIENTSERVER ISAS的Web技术提供了数据服务和计算服务其中包括htmSQL,UNIX Web服务器的CGI(Common GatewayInterface),这样通过Web浏览器即可动态查询SAS数据和外部的关系型数据库;SAS ODBCDriver使之能通过支持ODBC的Windows Web服务器来访问SAS数据;利用SAS Driverfor JDBC通过Java的最小进程Applet来查询SAS数据通过SAS/IntrNet ApplicationDispatcher可在Web浏览器上递交SAS程序到SAS应用服务器上执行,并将结果返回浏览器如图所示在Web环境下的决策支持系统要能在Thin Client(瘦客户机)条件卜.实现系统的各项功能这就涉及了在Client端承担的分工问题当通过Java技术在Client端的Browser(浏览器)上实现决策支持功能时,则在SAS的Server端要能支持Applet的工作方法在采用Thin Client系统架构时,更加通用的技术是利用CGI建立SAS Server和Web Server的联结,从SAS Server这个源头就将结果输出的格式制作成超文本的HTML形式这样在Client端就直接得到了HTML格式的输出,使得Client端承担最少的工作在Internet和Intranet中采用Thin Client会给带来许多好处,诸如减少了在Client端的投资,特别是能减少在Client端的维护工作量,增加了系统的稳定性同时也扩大了SAS决策支持的应用范围现在也有使用全功能的智能型Client的建议这可以实现在Client和Server双方最佳的分工,其目标当然是让终端用户获得最佳的使用效果实际上在“瘦Client和“胖”Client之间是有许多不同装备程度的Client存在的支持信息业发展中的各种架构形式,使用户得到最大限度的方便,使决策支持系统发挥最大的作用,这是SAS一直追求的目标SAS产品中的SAS/InirNel模块使你能在上图所示的充分的Web环境中使用各种SAS功能;在Web环境中建立你灵活、方便、功能强大的决策支持系统本年度将发布Vcrsion
7.0新版本的SAS系统产品新版本的一个主要目标就是进一步提高SAS在Web环境中实现的能力如新版的Enterprise Reporter功能可让非信息技术专业的用户能从数据仓库和决策支持系统中取出数据,自主地制作格式化的报表,并通过Internet在线地分发这些报表SAS将不断努力,积极推进Internet和Intranet技术的发展,让三百五十万SAS用户更加方便地在Internet和Intranet上运用已给他们带来丰厚效益的SAS技术,在Web上得到最方便、最有力的决策支持计算机世界报技术专题版于98年2月16日至4月6日在解决方案栏,以连载形式探讨了最新的数据仓库、决策支持理念与实践,并全面、系统介绍SAS软件公司提供的数据仓库、数据挖掘、业务智能化及Web使能产品与解决方案,欢迎查阅如果您需要进一步的资料,请寄回执至,地址北京市海淀区花园路4号通恒大厦203室,邮政编码100088,图文传真01062351279,并注明市场部收;或拨打电话01062351280-3联系SAS中国有限公司市场部姓名邮政编码希望了解相关技术单位希望了解SAS产品职务希望购买SAS产品电话和传真与SAS公司建立合作关系通信地址参加培训及市场拓展活动SAS InstituteInc.SAS CampusDrive Cary,NC27513U.S.A.Tel:919-677-8000Fax:919-677-4444SAS InstituteLtd.14/F,Cityplaza412Taikoo ShingHong KongTel:85225684280Fax:85225687218SAS中国有限公司上海办事处地址上海市雁荡路107号雁荡大厦3层E座电话02163582288传真
(021)63725477邮编200020SAS中国有限公司北京办事处地址北京市海淀区花园路4号通恒大厦203室电话:
(010)62351280,1281,1282,1283传真
(010)62351279邮编100088SAS广州办事处地址广州市天河北路233号中信广场3608室电话
(020)87554490传真
(020)87554526邮编510620Website:http://www.sas.com/利用SAS技术建立你的数据仓库由于使用SAS系统成功地建立了许多卓有成效的数据仓库,SAS系统的数据仓库产品已连续两年1996-1997被美国著名的“Datamation”评为“当年度最佳产品”销售额也占据了SAS产品的首位98年又在DCI全球数据仓库大会荣获wExcellence inBusiness Information大奖正象数据仓库虽然是个较新的词语,但它是计算机技术发展的必然结果一样;SAS获此殊荣也非一日之功,正是它顺合计算机技术发展规律的渊源所致为什么在有了这么多数据库产品之后,人们又要用数据仓库技术业界的各路诸侯又如此趋之若鹫这正是计算机技术应用需求的推动当年数据库技术大发展的过程是伴随着OLTP OnLine TransactionProcess联机业务处理应用需求的推动联机业务处理最迫切的技术要求就是快速响应数据库技术,特别是基于E.F.Codd提出的关系理论的数据库的技术,将数据集分成了甚少冗余的实体Entity,然后又将它们按一定的关系Relationship编织成一个有机的整体,比较完美地满足f OLTP的应用需求对于每个业务处理最好只须涉及•个实体,业务处理对于实体的Add或Update也只涉及数据媒体的可能最小的空间如记录级封锁技术,对于其它实体的相关更新通过关系保持了一致性和完整性这个切合当时OLTP应用实际需求的理论和技术的成功,推动了关系数据库产品风靡世界象计算机技术的迅速发展一样,激烈竞争的市场也激发了各行各业对■计算机应用的更多样的需求计算机用户早已不满足于计算机能帮助他迅速地处理具体业务,他们要从这大量业务数据中探索业务活动的规律性,市场的运作趋势,并从中为他们参与市场竞争作出重要的决策由此而来产生了对DSS DecisionSupport System——决策支持系统的需求支持决策就要进行数据,信息的分析,这就产生了OLAP OnLine AnalysisProcess联机数据分析处理的需要决策支持所依据的数据从哪里来,当然是成功运行着的业务处理数据库中的数据所以最早的决策支持所进行的数据处理就是直接使用数据库中的数据可称之为ROLAP,即利用关系数据库的数据进行联机分析处理SAS系统早就具有最强有力的数据分析处理能力,再加上SAS的SAS/ACCESS对几乎所有数据库和数据文件的强大的读取能力,以及SAS跨多平台的运作能力,SAS系统就成了最完善的ROLAP工具当ROLAP只使用很少的关系数据库表时,这一操作是可行的这种操作往往是针对局部性问题进行的决策支持数据分析但面对市场的决策往往是涉及整个企业范畴的数据和信息这就要同时启动大量的数据库表,并且要将众多表中的数据按一定的规律拟合起来,形成恰好针对所支持决策问题的数据内容这样一个过程或许是十分复杂,且耗费大量资源或许企业的数据是分布在若干个系统中的,这样的数据整合过程几乎是难以完成的除此之外,在一个数据库表中的每一条记录也并不是某项决策都需要的,这要按决策支持的需要编制专用的数据筛选程序再者,联机业务处理系统中的数据有一个特性即每一附录资料不需要的可以自行删除如何构建银行数据仓库数据仓库技术作为一项数据管理领域的新技术,其精髓在于针对联机分析处理OSP提出了一种综合的解决方案,与以往很多技术不同的是,它主要是一种概念,在此概念指导下完成系统的构造既没有可以直接购买到的现成产品,也没有具体的分析规范和实现方法,也就是说没有成熟、可靠且被广泛接受的数据仓库标准在以往关系数据库的设计和实现中,不仅有详细的理论推导,还有无数的设计实例,无论你使用的是什么公司的数据库产品、开发工具,只要按照规范做,那么实现同一业务需求的方案都会很相似而现有数据仓库的实现中,出现了MOSP方案和ROLAP方案的区别,出现了形形色色的数据仓库建模工具、表现工具,而设计人员的个人经验和素质也会在其中扮演很重要的角色数据仓库技术的实现方式目前在数据仓库技术的实际应用中主要包括如下几种具体实现方式
1、在关系数据库上建立数据仓库ROLAP
2、在多维数据库上建立数据仓库MOLAP MOSP方案是以多维方式来组织数据,以多维方式来存储数据;ROLAP方案则以二维关系表为核心表达多维概念,通过将多维结构划分为两类表:维表和事实表,使关系型结构能较好地适应多维数据的表示和存储在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少,而通过关系表间的连接来查询数据的ROLAP系统,系统性能成为最大问题MOLAP方案比ROLAP方案要简明,索引及数据聚合可以自动进行并自动管理,但同时丧失了一定的灵活性ROLAP方案的实现较为复杂,但灵活性较好,用户可以动态定义统计和计算方式,另外能保护在已有关系数据库上的投资由于两种方案各有优劣,因此在实际应用中,往往将MOUXP和ROLAP结合使用,即所谓的混合模型利用关系数据库存储历史数据、细节数据或非数值型数据,发挥关系数据库技术成熟的优势,减少花费,而在多维数据库中存储当前数据和常用统计数据,以提高操作性能
3、在原有关系库上建立逻辑上的数据仓库由于目前正在运行的OLTP系统中已经积累了海量数据,如何从中提取出决策所需的有用信息就成为用户最迫切的需要新建数据仓库固然能从功能、性能各方面给出一个完整的解决方案,但需要投入大量的人力、物力,并且数据仓库的建设和分析数据的积累需要一段时间,无法及时满足用户对信息分析的迫切需要因此在筹建数据仓库的前期,可以采用一些合适的表现工具,在原有OLTP系统上建立起一个逻辑的数据仓库系统尽管由于原有OLTP系统设计上的局限性,这样的系统可能无法实现很多分析功能,但这样一个系统中数据结构固定、信息分析需求相对稳定成熟,因此数据仓库的建模、实现过程会相对容易、便捷;同时,这样的系统也会成为将来真正数据仓库建设的原型信息系统与数据仓库的关系由于数据量大、数据来源多样化,在商业银行构建管理信息系统时,不可避免地会遇上如何管理这些浩如烟海的数据,以及如何从中提取有用的信息的问题;而数据仓库的最大优点在于它能把企业网络中不同信息岛上的商业数据集中到一起,存储在一个单一的集成的数据库中,并提供各种手段对数据进行统计、分析因此可以说,在银行使用数据仓库构建管理信息系统,既有压力,又有数据基础,它们之间的联系是必然的,难以割舍的数据仓库在商业银行的应用范围包括存款分析、贷款分析、客户市场分析、相关金融业分析决策(证券、外汇买卖)、风险预测、效益分析等在银行信息系统构建时,由于历史情况和现实需求的不同,存在两种途径
1、建设新系统由于目前国内商业银行对银行内部运营的监管,缺乏很好的数据搜集机制,因此可以在构建管理信息系统时,分数据收集录入和数据汇总分析两部分来考虑这样的系统中由于不需考虑大量历史数据的处理问题,同时考虑到搜集过程中可能存在多个数据来源,因此可以在系统建设的同时构建数据仓库,将搜集来的各种数据通过数据抽取整合到数据仓库中
2、完善原有系统而对于已经存在OLTP系统,其中沉淀了大量历史数据,则可以先在原有系统上建立逻辑数据仓库,即使用数据分析的表现工具,在关系模型上构建一个虚拟的多维模型当系统需求稳定后,再建立物理数据仓库,这样既节省投资,又缩短开发工期实现中需要注意的问题
一、模型设计中的问题模型设计(包括逻辑模型设计和物理模型设计)是系统的基础和成败的关键,在实际操作中,视实现技术的不同应分别对下列问题引起注八匕,总、O
1、直接构建数据仓库直接构建数据仓库时,必须按业务分析的要求重组OLTP系统中的数据,并要按不同侧重点分别组织,使之便于使用*主题的确定主题是一个逻辑概念,它应该能够完整、统一地刻画出分析对象所涉及的各项数据以及相互联系划分主题的根据主要来源于两方面:对原有固定报表的分析和对业务人员的访谈原有固定报表能较好地反映出以往工作对数据分析的需求,而且数据含义和格式相对成熟、稳定,在模型设计中需要大量借鉴但仅仅满足于替代目前的手工报表还远远不应是构建管理信息系统的目标,还应该通过业务访谈,进一步挖掘出日常工作中潜在的更广、更深的分析需求只有这样,才能真正了解构建数据仓库模型所需的主题划分*分析内容的细化主题的划分实际上是与分析内容的范围直接相关的,一旦主题划分清楚了,下一步就是细化分析的具体内容以及根据分析内容的性质确定它在数据仓库中的位置通常维元素对应的是分析角度,而度量对应的是分析关心的具体指标一个指标究竟是作为维元素、度量还是维属性,取决于具体的业务需求,但从实际操作中可以总结出如下的概念性经验:作为维元素或维属性的通常是离散型的数据,只允许有限的取值;作为度量的是连续型数据,取值无限如果一定要用连续型数据作为维元素,则必须对其按取值进行分段,以分段值作为实际的维元素判断分析指标是作为维元素还是维属性时,则需要综合考虑这个指标占用的存储空间与相关查询的使用频度需要特别强调的是,在细化分析内容的过程中,务必解决指标的歧义问题在不同报表中以及在业务访谈中同一名称的指标,是否是在同样条件限定下,通过同样方法提取或计算得到的,它们之间的相互关系是什么,这些问题都必须从熟悉业务的分析人员那里得到准确、清晰的答案,否则将会影响到模型设计、数据提取、数据展现等多个方面O*粒度的设计数据仓库模型中所存储的数据的粒度将对信息系统的多方面产生影响事实表中以各种维度的什么层次作为最细粒度,将决定存储的数据能否满足信息分析的功能需求,而粒度的层次划分、以及聚合表中粒度的选择将直接影响查询的响应时间如果同一个信息系统要在大范围、多层次上同时运行,如部门级和企业级,还应考虑不同层次的数据仓库采用不同的粒度*模型设计中的技巧复合指标尤其是比率类指标的定义,必须注意累加时是先加减后乘除,还是反之户数、笔数的计算,这类指标在分析或报表中经常出现,但不需要作为单独的指标物理存在于数据库中,但定义分析模型时一定应该准备度量的时间特性,针对分析指标在时间维上的不同表现,可分为可累加指标、半可累加指标和不可累加指标
2、在原有数据基础上构建逻辑数据仓库如果直接使用OLTP系统中的数据进行数据分析处理,会遇到许多麻烦,有时甚至是不可能实现的这并不是说关系数据库不好,而是因为其设计思路不适应较大规模数据分析因此在使用这种方法时,需要注意下列问题的处理*不同的时间单位这是实现过程中最常遇到的问题,也往往是最难解决的问题OLTP系统中存储的时间往往采用与实际.业务发生相同的时间单位,如帐务数据单位为日期,财务报表单位为月或半年而面向分析时,往往要将不同时间单位的数据统一到同一个结果中,这样就必须存在适当的转换机制才能实现*冗余信息所谓冗余信息,就是指不同关系表中存在的同一含义的字段,而同一含义不仅指这些字段的取得或计算方式一样,还指它们成立的条件一样,例如截止某一时间同一地区的同一贷种的贷款余额在OLTP系统中,这样的字段往往是基于性能考虑而设计的,而在面向分析设计模型时,为了保证结果的唯一性和准确性,就必须用且只用其中之一的数据产生分析结果*表间连接由于OLTP系统中表的设计面向业务处理,既要保证数据的完整性、一致性,又要考虑响应时间,因此表与表之间既相对独立,又相互依赖在设计数据仓库逻辑模型时,对表间的连接必须做出相应取舍,既要保证分析数据能通过连接取得或计算出,又要避免出现环路,造成分析数据的歧义另外,不同的连接途径还会出现不同的查询速度,影响数据分析的响应性能*统计表的设计如果上述问题不能在原有数据库基础上得到很好的解决,那么权益之计就是构建统计表,即简单化的数据仓库,形式类似数据仓库的事实表,定时计算统计数据放入,将时间、冗余、连接等问题推除,进行简单分析
二、数据抽取中的问题数据抽取是一件技术含量不高,但非常烦琐的工作,必须有专人负责数据抽取的工作在对其进行设计时,要注意的问题有
1、数据抽取的规则要作为元数据进行规范和管理,抽取过程中的源表、源字段、目的表、目的字段、转换规则以及转换条件都要作好详细记录这样不仅便于编程人员实现,而且在抽取规则或逻辑模型发生变化时也便于修改
2、如何记录业务数据库中的变动情况是数据抽取中一个重要的环节由于数据仓库中按时间保存数据,因此不同时间点之间数据的差异就成为一个关键性因素通常可以利用数据库管理系统提供的手段在数据库级产生数据变动日志,根据日志再判断数据的变动情况完成抽取,这样是一个从性能、可操作性以及对原业务系统的影响等多方面综合考虑都比较理想的方法
3、当数据仓库中同一表中的数据来自于原有系统中不同的表,甚至不同的库忖,抽取时务必保证这些数据单位一致,而且都满足同一时间条件
4、数据抽取不仅要考虑数据的提取,还要考虑抽取的时间安排和执行方式,这样才是一个完整的数据抽取方案,也才能保证抽取出来的数据准确、可用
三、后期维护、优化中的问题数据仓库的建设是一个长期工作,它同其他系统一样需要在运行的过程中不断进行调整、完善这其中包括两方面的工作
1、性能数据仓库涉及海量数据的查询,数据的大量写入读出,不仅对数据库系统的要求很高,而且与OLTP系统的要求极为不同,因此在系统设计、实施和维护的过程中,数据仓库系统的性能都是一个不可忽视的问题尤其是在运行期间,要密切关注应用对系统资源的消耗情况,针对应用的特点及时对系统进行调整,包括调整数据库参数、数据分片放置、创建特殊索引乃至提高系统配置等
2、模型应用与需求是相互促进、不断发展的,随着信息系统建成运行,用户在对系统了解不断加深的过程中,也会对系统提出更新更高的要求如何在最小投入的前提下满足用户的需求,也是一个值得注意和潜心研究的问题首先要尽可能挖掘现有系统的潜力,其次考虑,对主题的增加或可在现有系统上增加少量指标就可解决的需求,对系统进行适当调整,最后才考虑对系统进行重构,尽可能减小系统建设中的投入数据仓库应用的深化按照上述方法实现的应用中,主要完成了报表的生成和日常业务的分析,这并不能给企业带来真正的效益,也远远没有发挥出数据仓库的应用价值随着应用的深入,可以由企业的技术人员与业务人员紧密配合,规划出对企业有实际价值的应用模型,并根据实际业务的发展不断调整模型自身的参数,以期找出企业运作过程中的规律,即在数据仓库上进行数据挖掘,构建DSS系统,这样才能充分体现构建数据仓库的意义,从而最终为企业带来效益尽管数据仓库技术还需要不断发展、完善,但只要企业能认识到信息分析的重要性,业务人员和技术人员能真正配合起来,相信不久的将来会有更多的实用成果出现条记录都有产生,反复的变更、修改,直至数据记录不再变化的过程,称之为“数据到位二例如一个物料在一个工厂中产生了,联机业务处理系统中就要添加i条相应的记录;这个物料不断地进行加工,就要在它的记录中记入加工的参数;当这个物料加工成产品,被发货出厂,就要再登录这些出厂信息,此后,记录其生产过程的数据就再也不能修改了如果要进行产品生产周期的分析,就只使用发货出厂后的那些物料的数据,而不能使用同一表中的正在加工的物料的数据由此可见,直接使用联机业务处理系统中的数据进行决策支持数据的分析处理是会产生许多麻烦的,甚至是实现不了的这时候,人们就会问为什么系统中有我需要的数据,而我却无法运用呢!这不是说关系数据库不好,而是老产品遇到了新任务E-R型的数据结构能完美地执行联机业务处理,但不适应较大规模的决策支持数据分析•,尤其不适应企业级的决策支持数据分析处理的需要适应这一需求,应运而生的就是数据仓库技术在W.H.Inmon所著“Building theData Warehouse一书中给出了数据仓库的定义:丁教据仓库是面向主题的、整合的、稳定的,并且时变的收集数据以支持管理决策的一种数据结构彩式这一定义指出了数据仓库和事务处理系统之间的主要差异数据仓库的目标是为了制定管理的决策提供支持信息,这显著的与OLTP系统的快速响应需要不同正象企业为了发展要进行业务重组一样,为了支持管理决策需要也要按决策业务科目的要求重组OLTP系统中的数据,并要按不同决策,分析内容分别组织使之方便使用这种基于主题的模式从用户角度来看就是多重的数据重组结构在把数据装载到数据结构重组后的数据仓库之前,先要进行数据转换,或称“整合”处理这一处理包括几个必不可少的操作步骤,做到使数据完整、统一,这就确保了在使用数据仓库时其中的数据是有质量保证的,对此后文有详述简而言之,整合就是保证数据准确,到位,没有超出应有的数值范围,没有重复等数据仓库中的数据不象事务处理系统中的数据那样频繁的修改,所以它是比较稳定的(不必实时修改)在•次数据分析的执行过程中使用的数据不得变更,这才能保证两次在使用同一组信息进行分析时不会得出不同的答案数据仓库一般是按周、月或隔月从OLTP系统周期性的批次更新数据由于具有数据的时段稳定性,对数据仓库来说就可以减少许多传统RDBMS必须的资源消耗,如记录的锁机制、参照完整性的检查、数据操作的日志、以及检查点八可退(Rollback)等和OLTP的“实际事件”相比,SAS数据仓库的数据组织可呈多维时间段结构(时变的——例如1997年各个月份的销售数据),这一数据结构供进行某一时间段众多事件的定量分析用,并产生相应的结论从本质上说,数据仓库的目标是从联机业务处理系统中筛选出某项决策所需的支持数据,再在分析处理过程中得出进行决策时有用的信息供分析使用的这种时变数据亦可预先归纳出若干层次的汇总数据以利决策支持使用,这样,在常规决策操作时就不必临时进行基础数据的汇总处理了SAS系统提供的数据仓库模型是包括了数据仓库管理、组织和信息展现的整体解决方案这是由一族有机组合产品构成的阵容强大的模型在下图中表示rsAs数据仓库的模型SAS数据仓库一览总之,数据仓库是当今社会的人们参与市场竞争等各项活动,要进行决策时的最适合的数据结构形式是适应企业重组Re-Engineering时,进行企业数据、信息重组的工具SAS在数据仓库技术上的成功例证和经验也必然能帮助中国的企业更卓有成效的走向市场经济的大潮SAS数据仓库的组成提醒您在购买数据仓库产品时注意其必不可少的技术环节数据仓库是适应决策支持系统的需要而产生的,所以人们希望所采用的软件产品能支持决策过程的全部工作内容SAS的数据仓库技术就是可以支持决策全过程的整体解决方案包括*从任何业务处理系统或数据源中取出决策所需数据*对源数据进行清理和整合*按计划或规则进行数据仓库的装载和更新*按支持决策的需要,以多种形式进行数据和信息的组织*最丰富的决策数据分析处理能力*灵活多样的结果展现方式如果您想建立决策支持系统的话,您就应当检查您所采用的软件工具是否具备上述全面的能力SAS系统的数据存取能力从早期的SAS技术来看,它就是一个十分通用,且又十分开放的软件产品唯有这样SAS才会在如此广泛的各种不同类型计算机系统平台和各种各样的环境中得到充分的运用SAS有一个SAS/ACCESS产品,利用它可对众多不同格式的数据进行查询、访问和分析工SAS/ACCESS提供了与目前许多流行数据库软件和老的数据文件的接口,用SAS/ACCESS可建立对应外部异构数据的一个统一的共用数据界面所提供的与外部数据的接口是透明和动态的用户可不必将数据真的读到SAS系统中来,而只需在SAS系统中建立对外部数据的描述(亦即所谓View),便可把这些外部数据当作真正存储在SAS系统中的数据集一样使用这时,用户即可使用这些数据进行所谓ROLAP式的数据分析和决策工作对一些经常反复使用的外部数据,亦可利用SAS/ACCESS将其真止提取放入SAS系统中,并进一步经过整理放进数据仓库SAS/ACCESS提供的接口是双向的,既可将数据读入SAS系统,亦可在SAS系统中更新外部数据,或将数据加载到外部数据载体中去这使数据仓库系统和原有的运行数据体系更加沟通目前SAS/ACCESS支持的数据库主要有DB2,Oracle,Sybase»Rdb,CA-Ingres»CA-Datacom,Informix,ADABAS,NCR-Teradata,AS/