还剩22页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据仓库概述1数据仓库概述随着计算机技术的飞速进展与企业界不断提出新的需求,数据仓库技术应运而生传统的数据库技术是单一的数据资源,即数据库为中心,进行从事事务处理、批处理到决策分析等各类类型的数据处理工作近年来,随着计算机应用,,网络计算,开始向两个不一致的方向拓展,一是广度计算,一是深度计算,广度计算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据交流,互联网就是广度计算的特征,另一方面就是人们对以往计算机的简单数据操作,提出了更高的要求,希望计算机能够更多的参与数据分析与决策的制定等领域特别是数据库处理能够大致地划分为两大类操作型处理与分析型处理或者信息型处理这种分离,戈清了数据处理的分析型环境与操作型环境之间的界限,从而由原先的以单一数据库为中心的数据环境进展为一种新环境体系化环境数据库系统作为数据管理手段,从它的诞生开始,就要紧用于事务处理通过数十年的进展,在这些数据库中已经储存了大量的日常业务数据传统的业务系统通常是直接建立在这种事务处理环境上的随着技术的进步,人们试图让计算机担任更多的工作,而数据库技术也一直力图使自己能胜任从事务处理、批处理到分析处理的各类类型的信息处理任务后来人们逐步认识到,在目前的计算机处理能力上,根本无法实现这种功能,而且,另一方面,事物处理与分析处理具有极不相同的性质,直接使用事务处理环境来支持决策是行不通的事务处理环境不适宜DSS应用的原因要紧有下列五条1事务处理与分析处理的性能特性不一致在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短;在分析处理环境中,用户的行为模式与此完全不一致,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源将具有如此不一致处理性能的两种应用放在同一个环境中运行显然是不适当的2数据集成问题DSS需要集成的数据全面而正确的数据是有效的分析与决策的首要前提,有关数据收集得月完整,得到的结果就越可靠当前绝大多数企业内数据的真正状况是分散而非集成的造成这种分散的原因有多种,要紧有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据与非结构化数据3数据动态集成问题静态集成的最大缺点在于,假如在数据集成后数据源中数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据集成数据务必以一定的周期比如24小时进行刷此外,英国电信使用数据仓库应用系统保证了关键性业务的处理,福特汽车公司、Motorola、GE总部、ATT等在高端信息系统中也应用到数据仓库技术上海集装箱码头的项目、深圳华为、上海强生、上海日立、广东省长话计费系统、新飞集团、浙江省移动通讯计费系统等也成功使用了数据仓库技术第二篇数据仓库有关技术技术上获取信息存在的问题数据仓库作为决策支持系统与联机分析应用数据源的结构化数据环境所要研究与解决的问题就是从数据库中获取信息将大量的业务数据应用于分析与统计原本是一个非常简单与自然的办法,但在实际的操作中,要获得有用的信息并非如想像的那么容易.所有联机事务处理强调的是密集的数据更新处理性能与系统的可靠性,并不关心数据查询的方便与快捷联机分析与事务处理对系统的要求不一致,同一个数据库在理论上都难以做到两全.业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设.业务数据的模式针对事务处理系统而设计,数据的格式与描述方式并不适合非计算机专业人员进行业务上的分析与统计-.数据仓库系统的三个工具层关键字数据仓库、工具OLAP的查询分析型工具、DSS的分析预测型工具、数据挖掘的挖掘型工具一起构成了数据仓库系统的工具层,它们各自的侧重点不一致,适用范围与针对的用户也不相同具备了这三种工具的数据仓库系统,才能真正高效地利用数据仓库中蕴藏的大量宝贵的信息1联机分析处理OLAP联机分析处理OnLineAnalyticalProcessingOLAP要紧通过多维的方式来对数据进行分析、查询与报表它不一致于传统的联机事物处理OnlineTransactionProcessingOLTP应用OLTP应用要紧是用来完成用户的事务处理,如民航订票系统、银行储蓄系统等等,通常要进行大量的更新操作,同时对响应时间要求比较高而OLAP应用要紧是对用户当前及历史数据进行分析,辅助领导决策其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,要紧是进行大量的查询操作,对时间的要求不太严格目前常见的OLAP要紧有基于多维数据库的MOLAP及基于关系数据库的ROLAP在数据仓库应用中,OLAP应用通常是数据仓库应用的前端工具,同时OLAP工具还能够同数据挖掘工具、统计分析工具配合使用,增强决策分析功能2决策支持系统DSS决策支持系统(DSS)与数据仓库的目标用户相同,都是面向企业的中高层领导,它们执行的都是决策与趋势分析类的应用,DSS中的一些技术能够很好地集成到数据仓库中,并使数据仓库的分析能力更加强大比如DSS中的传统统计分析模型能够帮助用户对数据仓库中的数据进行更加有效、更加深入的分析,从而更好地掌握与利用信息而一些智能决策技术,如人工神经网络在发现顾客行为模式、预测金融市场行为等方面显示了强大的功能这些DSS的核心技术在数据仓库中的应用不但会大大提高数据仓库的决策支持能力,同时也使DSS的应用范围更加广泛3)数据挖掘数据挖掘是当前业界的热门技术,已经在多个应用领域产生了巨大的效益数据挖掘不一定需要建立在数据仓库的基础上,但是假如将数据挖掘与数据仓库协同工作,则能够简化数据挖掘过程的某些步骤,从而大大提高数据挖掘的工作效率同时由于数据仓库的数据来源于整个企业,保证了数据挖掘中数据来源的广泛性与完整性数据挖掘技术是数据仓库应用中比较重要也是相对独立的部分目前,数据挖掘技术正处在进展当中数据挖掘涉及到数理统计、模糊理论、神经网络与人工智能等多种技术,技术含量比较高,实现难度较大此外,数据挖掘技术还会同可视化技术、地理信息系统、统计分析系统相结合,丰富数据挖掘技术及工具的功能与性能二.数据仓库的关键技术与关系数据库不一致,数据仓库并没有严格的数学理论基础,它更偏向于工程由于数据仓库的这种工程性,因而在技术上能够根据它的工作过程分为数据的抽取、存储与管理、数据的表现与数据仓库设计的技术咨询四个方面三.几家公司的数据仓库解决方案关键字数据仓库、解决方案1)Sybase的数据仓库解决方案Sybase的数据仓库解决方案uickStartDataMart包含SybaseIQ、CaletonPASSPORBrioQueryCognosPowerplay等一系列软件,支持DB
2、MS、VSAM.Sybase、Oracle、Infonnix等关系型数据库,还有文本格式的数据它能够同时处理几十个即席查询,其BitWise技术与垂直数据存储技术使系统只访问特定的少量数据,使得查询速度比传统的关系型数据库管理系统快100倍)Platinumtechno1ogy公司解决方案Platinumtechnology公司的数据仓库解决方案为企业提供完整、一致的数据,以保持商业决策的及时、正确性Platinumtechnology的数据仓库解决方案包含数据抽取与提炼、数据分布、元数据管理、数据存取与分析(OLAP、EIS、报表)、保险、销售与营销决策支持等几个方面它提供的数据仓库工具包含异构数据库之间数据双向复制的应用系统开发工具InfoPump与功能强大灵活的关系型OLAP工具InfoBeacon等;提供的数据仓库前端业务智能解决方案工具包含使用户能够快速建立与使用的图形化企业信息系统应用的基于Windows的查询与报表工具ForestTrees能够利用多个大型数据库在桌面机或者服务器上生成报表的企业级报表的工具InfoReports使用户在服务器上生成在用户端制作的企业报表的工具InfoReportsServero这些工具使用户不需编程即可查询关系数据库、数据仓库或者数据文件的数据HP公司解决方案HP公司是在HP9000高端解决方案之上提出的各应用数据仓库解决方案惠普公司的开放式数据仓库是基于简洁Simplicity标准Standards技巧Skills三点原则而设计的它向用户提供从关系型数据库到基于Internet的报告/查询工具与数据采集等多种多样的数据仓库工具HP所提供的咨询与项目服务涵盖了从数据处理设计,到网络架构、硬件设计、备份、灾难恢复、客户访问、培训I、帮助、管理等各个方面此外,它的数据仓库计划包含了HP智能数据仓库IntelligentWarehouse简化了数据仓库的管理,提高了异构数据仓库的性能,并能运行于多种平台IBM解决方案IBM的商业智能解决方案融汇了众多合作伙伴与第三方开发商的产品,比如,在查询工具中有Cognos的ImpromptuBusinessObjects的BusinessObjects、Lotus的Approach与IBM的QueryManagementFaci1ity多维分析OLAP工具有Arborsoftware的Essbase^IBM的DB2OLAP服务器与Arbor联合开发,统计分析工具有SAS公司的SAS系统,数据挖掘工具有IBM的智能挖掘机IntelligentMiner许多这种应用软件与工具都具有内置的Web浏览器支持与LotusNotes使用户能够在熟悉的桌面环境内获得所需的信息Informix公司解决方案Oracle数据仓库解决方案Oracle数据仓库解决方案在定义、建立与使用数据仓库的过程中存在下列三部曲a对最终用户的商业需求建立模型数据仓库的设计者务必从各类最终用户中熟悉信息需求,然后将这些信息需求转变为数据模型设计得务必以严密、精确的方法确保模型的完整性.b为元数据建立模型在为最终用户需求建立模型的同时,数据仓库设计者还务必为元数据关于数据的数据建立模型该信息确定了进入数据仓库的数据范围,与与数据有关的规定由于数据仓库是面向主题的,元数据的建模可能跨越数个功能性商业区域.c最后应该选择满足用户需要的工具,用户将使用这些工具访问数据仓库中存储信息关于数据仓库,全面参见“Oracle数据仓库白皮书”四.一些工具软件关键字数据仓库、技术、工具、SAS、SPSS、datawarehousinguIBM数据仓库提供的有关软件VisualWarehouse^BD20LAPServcr^IntelligentMiner等u可视数据仓库VicualWarohouse针对特定行业用户使用环境的解决方案包含专门为金融行业设计的DecisionEdgeforFinance、端到端的保险业解决方案DecisionEdgeforInsurance、为满足银行业保留客户需求而设计的应用程序套件IBMDiscoverySeriesforBanking.为电讯行业提供完美的客户服务的应用程序套件IBMDiscoverySeriesforte1ecommunications在JDEdwards事务处理系统环境下建立数据仓库的解决方案BusinessAnalysisSuiteforEdwards、在SAP事务交易处理系统基础上建立数据仓库的套件BusinessAnalysSuiteforSAP>用于分析Neb站点利用率的数据采集应用程序Surf-Aid与帮助企业向客户提供有特殊个性行销资料的套件InforPrintBusinessTnte11igenceSolutionouBusinessobjects是集查询、报表与OLAP技术为一身的智能决策支持系统,它使用特殊的“语义层”技术与“动态微立方”技术来表示数据库中的多维数据,具有较好的查询与报表功能,提供钻取Drill等多维分析技术,支持多种平台与多种数据库,同时它还支持Internet/Intranet能够通过WWW进行查询、报表与分析决策uOrac1eDiscovererTMTAuOracle最新推出的orac1e8i是一个面向Internet计算环境的数据库,它改变了信息管理与访问的方式,将强大的新型功能引入到了联机事务处理OLTP与数据仓库应用之中0racle8i还对Oracle数据服务器的几乎所有方面都给予了增强,全面改进了质量、可用性、性能、可管理性、多媒体数据类型支持与复制功能Oracle的决策支持产品包含数据仓库与OLAP商业智能工具商业智能要求今天的机构能够生成企业报表,能够查询分析与进行在线访问处理通过OracleReportsOracleDiscoverer与Orac1eExpressOracle是唯一的厂商提供低成本解决方案,为各类复杂问题提供快速解答,满足接连不断的商业智能系统需求uORACLE公司的新产品与技术-0racleRDBMSV7-Orac1eExpressServer-Orac1eExpressObjectuSybase与Ardent软件公司合作开发的PowerStage是为使用客户/服务器数据源进行项目建立而提供的,这些数据源包含运行于WindowsNT与UNIX平台上的业务系统有了PowerStage数据仓库开发者能够使用产品的虚拟设计应用,直接对数据的移动与处理进行建模开发者不再需要进行编码,也不必使已有的转换程序成为一个重用组件Sybase的习惯性服务器,一旦数据被抽取与转换后,它务必在数据仓库或者者数据集市中进行分布与存储当数据仓库环境中出现不一致的负载时,Sybase提供的习惯性服务器产品系列使用优化的数据存储技术u微软公司新的数据中心/数据仓库选中Platinum技术公司的软件InfoBeacon与InfoPump作为其数据分析与数据转移解决方案的工具Platinum的InfoBeacon是关系型在线分析处理OLAP工具,用于直接访问并优化微软的SQLServer另外,它在数据转移与复制领域也有一定的优势uSybase公司推出用于保险、医疗、电信与零售金融业的WarehouseStudios的工业专用产品PropertyCasualtylnsuranceWarehouseStudio
2.0^HealthcareWarehouseStudio
2.
0、Te1coWarehouseStudio
2.0与Retai!BankingWarehouseStudio
2.0ouWarehouseStudios由套装应用构成,包含一个使公司能对这些应用进行定制化处理的框架、一个使公司能建立一个数据模型的数据仓库设计与一个使公司能管理名为WarehouseControlCenter的元数据的环境IndustryWarehouseStudios可与任何数据库结合,而不仅限于Sybase产品uBusinessAnalysisSuiteforJDEdwards关于已经安装了JDEdwards交易系统的用户,这一方案能够帮助他们便利地创建数据仓库,高效率利用所有在日常事务中收集起来的交易数据资料进行战略决策uBusinessAnalysisSuiteforSAP专门针对已经安装了SAP交易系统的用户,为他们能够快速建立创建数据仓库、充分利用在日常事务中收集到的所有交易数据资料进行战略决策提供有效的帮助uSAS/WAWarehouseAdministrator是建立数据仓库的集成工具,它在其它SAS软件的基础上提供了一个建立数据仓库的管理层,包含定义数据仓库与主题,数据转换与汇总,汇总数据的更新,Metadata的建立、管理与查询,Datamarts与Infomarts的实现uSAS/MDDBServer是SAS的多维数据库产品,要紧用于在线分析处理OLAP可将从数据仓库或者其它数据源来的数据以立体阵列的方式存储,以便于用多维数据浏览器等工具快速与方便地访问uSAS/ITSVTTServiceVision是企业的全面IT服务的性能评估与管理的软件,这些H服务包含计算机系统、网络系统、Web服务器与电话系统等ITSV将不一致来源的数据进行整理与组织,存放于性能数据仓库中,用GUI或者批处理的方式产生组织任意层面的报告系统程序员及网络工程师能借此识别、研究并解决有关问题,业务分析人员能借此制定资源管理的总体策略,CIO与数据中心经理能借此定期地得到所需的IT运作的汇总与分析报告u(该大段为翻译资料)SPSS
10.0forWindows将单纯的数据转变成可进行决策的量SPSS中回归模型的应用)MultinomialLogiSticRegression多元logistic回归适用于1当结果(因变量)是明确的(如否/是/也许)1当已知量是连续的或者可分段的数据在下列领域使用多元logistic回归能够做到1教育——预测大学生主修的课程1市场调查——分析哪类顾客会买哪类产品1保健——分析哪种病人易感染哪种病1金融——分析哪类顾客会贷哪种款)BinaryLogisticRegression二元logistic回归适用于1当结果(因变量)是二分的(如否/是)1当已知量是连续的或者可分段的数据在下列领域若用二元logistic回归可做到1教育——预测什么大学生通过了某门课程1市场调查——分析哪类顾客会买某种产品1保健——分析哪种病人易感染某种病1金融——分析哪类顾客会拖欠某种款)LogisticRegressionlogistic回归适用于1当结果(因变量)是二分的(如否/是)1当已知量是连续的或者可分段的数据在下列领域若用logistic回归可做到1教育——预测哪个大学生通过了某门课程1市场调查——分析哪类顾客会买某种产品1保健分析哪种病人易感染某种病1金融一一分析哪类顾客会拖欠某种款)ProbitAnalysisProbit分析适用于1结果是二分的1已知量是某种刺激物的含量水平如某种药物的剂量1可用来测量刺激物的强度与该刺激物所带来某种反应的百分比的关系,并可估计产生该种反应所需要的剂量在下列领域若用Probit分析可做到1医疗研究——需要多少剂量可令一定百分比的病人治愈1化学研究——需要多少杀虫剂可消灭一定百分比的害虫1营销——多高的价格会使顾客的购买量降低NonlinearandConstrainedNon1inearRegression非线性与限定非线性回归适用于1结果与一系列已知量的关系是非线性的1能够指出模型等式的通常形式在下列领域若用非线性回归可做到1经济学研究意外收获对公司的影响1市场调查——息票偿还作为时间与分布的数量函数1保健——导致注意力不集中的年龄因素影响1社会科学研究——随着时间变化,人口数量的增长情况1生物物理科学一一动物骨骼增长作为时间与/与营养的函数模型WeightedLeastSquaresRegression加权最小二次回归适用于1因变量的变异系数不是常量,比如,依靠某些属性的程度越高变异性越大在下列领域若用加权最小二次回归可做到1金融研究——检验股价上涨时的影响,由于股份币值越高变异性就越大1保健——检验不一致治疗类型、住院时间的影响,由于住的时间越长变异性就越大1生产研究——检验不一致产品质量的影响,由于产品质量越低变异性越大1社会与犯罪司法——检验都市化程度对犯罪的影响,由于高犯罪区比低犯罪区的变异性要大Two-StageLeastSquares两阶段最小二次法适用于1因变量的错误与自变量的错误是有关的,换句话说,己知量与结果相互影响在下列领域若用两阶段最小二次法可做到1金融研究——产品销售价的影响,模型的困难在于价格与销售量相互影响1人力资源——工资水平在工作表现上的影响1教育——学习动力在学术表现上的影响1政治科学——公众政策观点在政策决定上的影响下列是适合不一致类型问题的回归模型1OLS(REGRESSIONinSPSSBase)通过价格与顾客的影响来测定产品销量1Logistic——通过价格与顾客的影响来测定是否应该进行某交易(是/否)1Probit价格降到多少会导致销售停止1NLR/CLR——递增变量在销售中的影响(非线性的)WLS检测顾客因交易大小的改变而对预算的改变,由于交易越大趋变异越大2SLS——价格对销售的影响,销售对价格影响u(该段为翻译资料)SPSSAdvancedModelsSPSS高级模型SPSSAdvancedModels工具可超出基本的数据分析而建立持续的数据分析模型它可使分析更精确、结论更依靠于问题内在的数据特征SPSSAdvancedModels针对现实世界提供了一套有力的复杂的分析技术,它可解决类似下列的任务医学研究,分析病人的生存率;制造业,评定生产过程等它有如下功能1归类结果用PLUM对结果分类的模型1灵活分析用己经进展的GLM过程分析变异系数与协方差1解析变异的成分用变异元素来估计过程并懂得源变异1观测检验用Cox回归建立多样的回归模型进行检验五.有关测试及其它关键字数据仓库、测试Informix数据仓库解决方案测试结果Informix公司在近日100GB数据量的TPC-D的测试中,使用的测试平台为INFORMIX-OnLineExtendedParallelServer(XPS)数据库与SunEnterprise450服务器价格/性能比测试结果为755美元QphD@00GBNCR/Teradata为9043美元QphD@100GBo也就是说,达到同样性能,Informix节约92%成本这意味着节约数百万美元投资性能测试结果为1069QppD@100GBNCR/Teradata使用了40倍数量的CPU使性能超出35%oNCRTeradata测试NCRTeradata数据仓库在
100、300GB与
1、3TB(百万兆字节)级的TPC—D指标测试中创纪录在企业猛烈的竞争中,实时分析全面数据的能力是至关重要的,NCRTeradata能够解决这一需求)NASDRegulation/Sequent侦测系统NASDRegulation是一套基于SequentNUMA-Q2000服务器的Nasdaq股市侦测系统,要紧用于市场监视、数据挖掘与欺诈/违规行为侦测第三篇数据仓库进展现状及存在问题一.进展现状关键字数据仓库、现状尽管从1997年开始,全球数据库市场就流传着不景气的说法,但各数据库纷纷在寻找新的增长点各大数据库厂商都关注于对象关系数据库技术(应当说这是数据库进展史上一项革命性的技术进步),而到了1998年,各厂商又纷纷转向数据仓库但是,总的来说,在1998年,甚至包含1997年,数据库技术并没有出现革命性的新技术不论是IBM于1998年9月公布的IBMDB2UBD
5.2Oracle于1998年11月公布的0racle8i还是Sybase于10月公布的ASE(AdaptiveServerEnterprise)
11.
9.2微软在年底重彩描绘的SQLServer
7.0尽管其名称各不相同,但都只能说是一些例行公事般的技术改进在数据库技术的当前及未来进展里程中,数据仓库与基于此技术的商业智能无疑将是大势所趋,从而成为兵家必争之地IBM的实验室在这方面进行了10多年的研究,并将研究成果进展成为商用产品IBM在其DB2UDB公布一年后的1998年9月公布
5.2版,并于1998年12月推向中国市场,除了用于OLAP(联机分析处理)的后台服务器DB2OLAPServer外,I还提供了一系列有关的产品,包含前端工具,形成一整套解决方案其他数据库厂商在数据仓库领域也毫不示弱,方法各有不一致IBM在一个通用的数据库系统中实现OLTP与OLAP相比之下,Oracle采取了类似的方法;Informix也是类似,在其动态服务器IDS(InformixDynamicServer)中提供一系列有关选件,如高级决策支持选件AdvancedDecisionSupportOptionOLAP选件MetaCubeROLAPOption、扩展并行选件ExtendedParalleiOption等,并认为这种体系结构严谨,管理方便,索引机制完善,并行处理的效率更高,其中数据仓库与数据库查询的SQL语句的一致使用户开发更加简便;而微软则是在其SQLServer
7.0中集成了代号为Plato(柏拉图)的OLAP服务器,这种做法不知是否会引起业界对其将Internet浏览器IE集成在Windows操作系统中相类似的起诉;与上述公司不一致的是,Sybase提供了专门的OLAP服务器SybaseIQ,并将其与数据仓库有关工具打包成WarehouseStudioo实际上,世界上最大的数据仓库系统当数NCR公司建立的基于其Teradata数据库、拥有24TB数据量的Wal*Mart(美国最大的零售连锁店)数据仓库系统,并产生了业界经典的〃尿布与啤酒〃的故事与国外应用情况相比,尽管各厂商在数据仓库方面的演出都很卖力,但在中国市场上的收效仍很有限从中国的数据库市场来看,大部分数据库系统的建立是用来进行传统的OLTP业务也有一些企业建立了数据仓库系统,但真正发挥效用的却不多见与TCP/IP、SMTP、Java等相比,业界尚不存在可靠的、完善的、被广泛同意的数据仓库标准,影响了数据仓库项目的实施五.建库方面存在的问题关键字数据仓库、问题关于数据仓库,概念已经被国内用户同意一两年了,同时大家已经开始建立数据仓库系统但是,数据仓库建设的问题要紧表达在三方面一是数据,国内数据库系统中数据积存还不够,作为数据仓库系统没有数据积存是没有意义的二是工具,现在的工具,OLAP工具也好,数据挖掘工具也好,都不太好用大家普遍认为这些工具是给专家用的,不能大众化,不能大家用三是管理,建立数据仓库的目的是大力提高商业收益,然而,执行有效的数据仓库策略的最大障碍常常不是技术方面的这是由于在建立数据仓库的过程中,经常暴露出存在于机构内部关系的复杂性与行政上的种种障碍在建立数据仓库过程中,由于忙于行政上或者机构内部组织结构上的问题,从而增加了技术实现上的难度正像一个高度集中化的公司有其可操纵的优势而又在部门一级缺乏必要的革新一样,集中式数据仓库具有可操纵性与可靠性,但是灵活性能就显得不好另外一种情况,就像过度分散的公司在部门一级具有很大的灵活性但缺乏协调,缺乏秩序一样、分布式数据集市可能会导致互相之间不能有效地协同工作此外,还有一个观念的问题数据仓库不一定马上就能得到很大的效益,用户不能急功近利实际上,数据仓库或者者说数据挖掘也好,有的时候候挖掘出来的东西并不是很有用的,可能要通过很长时间,也许在某些情况下得到一个非常好的结果,能够给领导者一个启示而不可能像宣传的那样,今天建立了数据仓库系统,明天就能够解决商业竞争中的很多问题,能取得很大的效益三.成功实现数据仓库目标的一些矛盾u业务与IT之间的矛盾对许多公司来说,要使最终用户与信息技术人员真正地在一起合作是困难的基层用户希望IT对出现的问题能提供快速的解决方案,而TT希望确保系统能够以“最佳方法”建立起来,以达到标准并为企业的需求服务新,我们称其为动态集成显然,事务处理系统不具备动态集成的能力4历史数据问题事务处理通常只需要当前数据,在数据库中通常也是存储短期数据,切不一致数据的储存期限也不一样,即使有一些历史数据储存下来了,也被束之高阁,未得到充分利用但关于决策分析而言,历史数据是相当重要的,许多分析方法务必一大量的历史数据为依托没有历史数据的全面分析,是难以把握企业的进展趋势的DSS对数据在空间与时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求5数据的综合问题在事务处理系统中积存了大量的细节数据,通常而言,DSS并不对这些细节数据进行分析在分析前,往往需要对细节数据进行不一致程度的综合而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往由因此一种数据冗余而加以限制要提高分析与决策的效率与有效性,分析型处理及其数据务必与操作型处理及其数据相分离务必把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储与组织技术数据仓库应用概述当今世界充满了剧烈竞争,正确及时的决策是企业生存与进展的最重要环节现在,愈来愈多的企业认识到,企业要想在竞争中取胜,获得更大的收益,至关重要的是,务必利用计算机与网络技术、数据仓库技术,深层次地挖掘、分析当前与历史的生产业务数据,与有关环境的有关数据,自动快速获取其中有用的决策信息,为企业提供快速、准确与方便的决策支持通过对企业生产与计划的完成情况及有关环境数据进行多角度多层次的分析,以使企业的决策者及时掌握企业的运行情况与进展趋势,并对制定生产计划与长远规划提供理论指导,提高企业的管理水平与竞争优势下列就对数据仓库的应用、技术、市场、前景等几方面进行简述第一篇数据仓库技术在各行业的应用与实例一.在证券业的应用关键字数据仓库、证券数据仓库技术在证券业的应用十分广泛,它可处理客户分析、帐户分析、证券交易数据分析、非资金交易分析等多个业界关心的主题,这是证券业扩大经营、防范风险的预警行动证券公司利用客户行为分析系统数据仓库技术将所有客户的操作记录进行归类与整理,并结合行情走势、上市公司资料、宏观微观经济数据等,在掌握大量数据的情况下,对客户的行为与市场各因素的关联、客户的操作习惯、客户的持仓情况、客户的盈亏情U部门与整个公司之间的矛盾不集中与集中的支持者之间的关系经常是紧张的高级管理人员可能希望在商业单元中推行决策制定与对后果负责与此同时,他们还希望对连贯性与运作加以集中操纵与大力加强数据仓库应该帮助把不一致子系统的分散的商业数据汇合起来,同时为各部门管理者提供他们所需要的基本信息U商业单位之间的矛盾•一个数据仓库应该使得数据能够跨越商业单位或者部门的边缘这就强烈需要把不一致操作系统的数据集成到一个决策支持环境中去然而,这些系统的差别经常超出硬件与软件平台所同意的变化范围各部门对世界的看法可能各不相同,这就导致不一致的商业过程与概念,这些会反映在数据上,不一致部门产生的数据可能不匹配同时不容易将它们统一起来以上所描述的困难不仅存在于大公司或者行政色彩很浓的环境中,甚至当部门经理之间想一起共事的时候,都可能需要大量工作来统一各部门对商业过程与术语不一致的定义设计数据仓库的努力将集中在过程上,特别在某些部门,这是务必要考虑的情况第四篇数据仓库市场、进展方向及前景一.我国的数据仓库市场关键字数据仓库、市场尽管数据仓库在国外似呈雷霆万钧之势,甚至有预言说“建立数据仓库将给投资者带来400%〜600%的回报”,但是按照我们的国情,数据仓库市场是否到了成熟的时期?下列从建库前提、成熟时间、厂商需求几方面进行分析1)数据仓库中联机分析处理实现前提首先是要有数据,大量的日积月累的数据•;其次是要有需求,做分析做决策支持的需求但目前我国的这两个前提还不够充分这儿年这种情况虽有所好转,但是建库的规模仍不够大,而且有的数据库建完以后常常没有钱保护,就变成了“死库”我国有的单位也开始构建自己的数据仓库比如,中国银行广州分行“八五”期间就开始建设数据仓库,他们的数据仓库包含了从数据采集、数据处理到数据存储的全过程,但是数据量相对来说比较小现在上海宝钢、深圳招商银行也在创建自己的数据仓库开展数据分析工作,为提高服务质量、增加财政收入、提高产品质量发挥了切实有效的作用3)不管在国外还是在国内,数据仓库的成熟有一个最重要的方面就是应用只有实际的应用才可能说服用户前几年,用户常常在数据的管理、数据的收集上下功夫,而今天用户的心态已经发生了很多的变化人们不仅想得到数据,更多地是试图从这些信息中获得更大的收益由于数字就是数字,没有通过分析的数字是无法决策的,数据仓库技术正迎合了这种需要数据仓库技术与常规的数据存储与数据库技术是完全不一致的,前者与企业的运作管理有关,它更多地来源于业务系统现阶段,厂商与媒体要做的工作是帮助国内的企业用户端正对数据仓库的认识,从宣传中熟悉自己的企业要不要建、能不能建、投入多少能够建立一套数据仓库管理体系同时,企业也从成功的应用中看到这样的系统能够给自己带来多少利益总体来说,今天谈论数据仓库应是正当时日由于前些年,国内已经有很多的用户在MRPII、企业财务管理,与某些应用上有了原始数据的积存,若把这些现成的东西插上决策分析的翅膀,必可使得当今的企业如虎添翼据熟悉,美国包含MCI在内的一些企业,于五六年往常就开始关注数据仓库这一领域,尽管经历了无数次的失败,但结果证明,它们的路走得是对的这一点,从去年开始的“数据仓库热”中也可看出来厂商不管大小,产品不管多少,都围绕数据仓库这一热门技术进行企业重构,计划下一步的行销策略国内目前的情况应该是正在培养数据仓库市场,也就是说,今天的工作在为明天作准备二.国内外的差距关键字数据仓库、差距据1995年国家计委、国家科委与国家信息中心对全国数据库进行的一次全面调查说明,我国当时具有一定容量、可对外提供服务或者被有效利用的数据库为1000余个,数据库的容量在10MB-100MB之间的占42%10MB下列的占35%100MB以上的占22%整体水平与发达国家差距达20年的时间近几年来我国数据库建设有了长足的进展,但与国外的进展程度相比差距并没有减少目前,国外数据库已是海量如美国数据库在1975年就平均达175MB比较大的库,像世界专利库有2000多万个记录,容量达若干个GB目前出现的数据仓库DataWarehouse达几十个GB;美国在线AmericanOn1ine公司在华盛顿的一个网点有上百个服务器,每个服务器上都有若干个数据库,每个数据库都是几十个GB到TB的数据量这是由于在美国Internet已经走向家庭,美国在线公司每天新增的用户有几百个,每天处理的业务达数千笔,由此可见国内外数据库应用的差距除了保护这些数据库7天X24小时运行外,他们做的另一项重要工作是将有关的数据提取出来,放到数据仓库中去用作联机分析但是他们发现,在由原有的许多数据库构建一个数据仓库的时候,数据的集成问题、异构数据的转换问题、数据的质量问题等,都存在着一定的困难这是由于在当初设计数据库时,没有充分注意数据的一致性这一点因此当我们在创建数据库的时候,就应该注意建库的一致性,自顶向下地建库,为日后构建数据仓库打好基础o总而言之,在数据仓库的应用方面,我们既要解决数据积存规模的问题,更要注重己建库的保护问题,双举并重,吸取国外的经验与教训,才能逐步缩小我国与国外的差距三.如何走好数据仓库之路关键字数据仓库不一致的行业,情况不一致关于如金融、邮电一类的大行业特别是银行业而言,往常本就有大型数据库的坚实基础,现今利用数据仓库为其开拓更有竞争力的市场,做到这一点很有必要如广东省银行业已经引入了竞争机制,该省被列为全国试点以开放金融市场在这样的形势下,使用数据仓库加强决策分析势在必行而关于国内基础设施尚待健全,又占据80%以上市场的中小企业来说,立即上马数据仓库未必是一项明智的投资,由于没有几十万,乃至上百万的人民币,是没有办法建立一套数据仓库系统的,而这样的投资,不是每个中小企业都敢奢望的!因此,中小企业最好买“成衣”(现成的解决方案),大型企业则“量体裁衣”为最佳!三.数据仓库未来进展方向数据仓库是数据管理技术与市场上一个方兴未艾的领域下列从技术、应用、市场等几个方面探讨数据仓库的未来进展1)数据仓库技术的进展自然包含数据抽取、存储管理、数据表现与方法论等方面在数据抽取方面,未来的技术进展将集中在系统集成化方面它将互连、转换、复制、调度、监控纳入标准化的统一管理,以习惯数据仓库本身或者数据源可能的变化,使系统更便于管理与保护在数据管理方面,未来的进展将使数据库厂商明确推出数据仓库引擎,作为服务器产品与数据库服务器并驾齐驱在这一方面,带有决策支持扩展的并行关系数据库将最具进展潜力在数据表现方面,数理统计的算法与功能将普遍集成到联机分析产品中,同时与Internet/Web技术紧密结合,推出适用于Intranet、终端免保护的数据仓库访问前端在这个方面,按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备2)计算机应用进展的数据仓库倾向是数据仓库进展的推动力传统的联机事务处理系统并不单独考虑数据仓库,但实际应用对数据仓库所能提供的功能却早有需求因此,许多事务处理系统近年来陷入一个两难的境地在现有系统上增加有限的联机分析功能,包含复杂的报表与数据汇总操作;一方面严重影响了事务处理联机性能,另一方面统计分析又因系统结构上的种种限制而不能充分表达其结果是应用技术的进展是朝着更加细化,更加专业的方向在新一代的应用系统中,数据仓库在一开始便被纳入系统设计的考虑,联机分析应用于普遍的事务处理系统之中在数据管理上,联机事务处理与数据仓库在应用中相对独立,使联机事务处理系统本身更加简洁高效,同时分析统计也更为便利面向行业的数理统计学向更为普遍的应用进展,并集成到应用系统的数据仓库解决方案中它们将立足于数据仓库提供的丰富信息,更好地为业务决策服务3)在市场上,从厂商与用户两个方面看数据仓库的进展关于提供数据仓库产品与解决方案的厂商来说,严酷的市场竞争是永恒的主题未来的进展将是不提供完整解决方案的厂商可能被其他公司收购,比如从事数据抽取、提供专用工具的软件公司很可能并入大型数据库厂商而去构建完整的解决方案能够持续进展的厂商大致有两类一是拥有强大的数据库、数据管理背景的公司;二是专门提供面向具体行业的、关于数据仓库实施的技术咨询的公司四.进展前景关键字数据仓库、前景、预测随着各类计算机技术,如数据模型、数据库技术与应用开发技术的不断进步,数据仓库技术也不断进展,并在实际应用中发挥了巨大的作用IDC在1996年的一次对90年代前期进行的62个数据仓库项目的调查结果说明进行数据仓库项目开发的公司在平均2-3年的时间内获得了平均为321%的投资回报率使用数据仓库所产生的巨大效益同时又刺激了对数据仓库技术的需求,数据仓库研究开发与应用的大潮正席卷而来在98年的调查显示超过90%的大中型公司今年将建立仓库,大约80%已投资于数据仓库的公司都认为获得巨大成功数据仓库提供了与0LTP系统截然不一致的集中式存储系统,前者包含了从公司拥有的许多数据库中提取出来的商业数据这些数据生动地反应了企业的现实,被予以分析,与作为战略性的竞争武器快速、准确地分析商业问题,将会影响公司的长期生存比如,在区域需求模式中分析趋势,能够帮助一个公司对供货进行管理,同时增加2百万美元的销售额据IDC预测分析,从1997年到2002年,整个数据仓库市场(软件、服务、服务器与存储)将以平均每年
20.5%的速度增长,到2002年将超过290亿美元中国的数据仓库市场前景广阔,更是充满无限商机数据仓库除了在传统领域,如金融、保险、电信等行业中的特定应用之外,在中国零售业的进展也将很广阔零售业开放是一个大趋势,我国零售业市场尚不发达,进行数据仓库开发具有一定难度即使在美国、新西兰或者者澳大利亚,也并不是每家商店都要用数据仓库,中国的零售业尽管进展很快,但目前还没有一家大型商场安装了数据仓库实际上,有很多国际大型零售企业正在积极进军中国市场,中国的零售企业应该及早着手准备应付新的竞争形势,加紧商场自动化与管理决策智能化建设利用数据仓库,能够按条目对每种商品、每个分店进行销售趋势分析,购买趋势、时令特点与定价策略都会一目了然,从而帮助经营者及时准确地做出决策零售这个与百姓最贴近的行业,更能让人体会到高新技术与传统行业之间的碰撞与磨合亚洲金融危机使周边国家的IT市场形势受到了极大的影响,但中国是个例外,中国的零售业市场尚不发达,但进展很快而同时,关于数据仓库等高端技术,中国的零售业还没有深刻的懂得与成功的应用而这种局面也正是希望所在此外,数据仓库在商业智能方面的应用能够将企业级用户带入领先的竞争优势环境,企业在商业智能上的战略性投资同样能够得到有效的回报根据IDC公司的调查结果说明,企业用于商业智能的投资回报率平均
2.3年高达400%一项来自美国MetaGroup的市场分析指出,92%的企业将在今后3年内使用数据仓库,到2000年,全球数据仓库的使用者就将达到1000万,数据库访问Internet/Intranet所带来的投资回报率达68%随着现代社会商业模式变革的进一步普及与深入,数据仓库这种数字化定制经济模式很可能成为下一世纪企业生产的组织原则,就像成批生产是本世纪的组织原则一样在未来大规模定制经济环境下,数据仓库将成为企业获得竞争优势的关键武器总之,数据仓库是一项基于数据管理与利用的综合性技术与解决方案,它将成为数据库市场的新一轮增长点,同时也成为下一代应用系统的重要构成部分数据仓库关于广大计算机用户,包含中国用户,并不遥远数据仓库市场前瞻2000年数据仓库技术进展趋势通过数年的进展,数据仓库技术已经逐步进展完善,同时随着电子商务的全面展开,数据仓库也成为人们经常提及的名词,数据仓库技术的一个分支,客户关系管理也与网上交易,供应链管理一起构成一个全面的整体电子商务解决方案以网上交易为例,由于网上商场与网上交易抹杀了距离的因素,用户在网站上所能够享受的服务成为网上企业竞争的重头戏,根据统计,当顾客受到良好的服务时,平均上他会推荐给一个朋友,但是当对服务不满的时候,他则至少会向10个朋友来宣传,这就是所谓在营销界盛传的100-1:0的意思当客户在网上得不到好的服务,或者者说能够在其他地方能够得到更好的服务的时候,他只需一次鼠标的移动,而企业的缺失是无法统计的正是由于这些原因,各大数据仓库解决方案提供商都纷纷把目标投向电子商务领域,甚至有专家预言数据仓库已经由数据仓库转向商也智能,而现在正在向电子智能ETnte11igcnce转变,以Sybase为例,2000年,Sybase推出EP与CRM解决方案套件,就是为了向这个目标迈进,Oracle公司也有相应的举措•,在ORACLE公司的电子商务高级论坛上,数据仓库,供应链管理与电子商务套件技术作为三大专题,备受听众欢迎2000年国内数据仓库市场数据仓库市场通过数年的低迷,今年逐步有回升的趋势,要紧契机有下列几点,一方面,由于银行商业化的步伐正在加大,各大中型银行在入世的压力下,开始重新考虑自身的业务,特别是自己的信贷风险管理方面特别注意,因而有关信贷风险管理与风险规避的决策支持系统的需求逐步多了起来其次由于电子商务的迅速进展,象8848这样的网站,开始考虑如何提高顾客的忠诚度,为客户提供更进一步的贴身服务,除此之外,各大型企业如移动通信局等也开始考虑着手进行决策支持与数据仓库规划如何开拓国内数据仓库市场尽管国内的数据仓库市场通过了这麽多年的进展,但是,比起国外大企业所建的巨型企业级数据仓库来讲,事实上还是只能算是刚刚起步,还存在很多的不足之处,要紧表现为一下几点1电脑应用水平较低,无法提出决策支持需求因此很多企业无法马上实施数据仓库,以华为为例,1998年斥资数千万美元,请IBM顾问组的人做了调查分析,结果是华为暂时不适合上数据仓库华为在国内应该是数一数二的大型1T企业,内部管理及其严格,可想而知其余企业的情况了,也有部分企业有这样的眼光,能够排除困难,同意数据仓库解决方案,但是成功的案例并不是很多2缺乏数据仓库方面的人才,数据仓库是一个实践性很强的技术,而且需要一个相对实力较高的小组来完成,而且在目前用户不成熟的情况下,需要设计者能够站在CIO或者CEO的角度来设身处地的为客户着想,帮助客户挖掘出深层次的决策支持的需求国内现有的技术人员很少有能够担负这种责任的而一些独立的顾问,则要麽只懂管理,要麽只懂技术,缺乏这样的复合型人才,因此导致很多数据仓库项目只停留在表面,无法达到一定的深度,更不用谈所谓BPR了o3缺乏以国内环境为背景的范例与成功应用,现在看到的所有案例与应用,大多都是从国外来的,毕竟存在着文化差异,国外的东西不能直接拿来使用,举一个例子,国外的报表大多都是一张表说明一个问题,并不要求复杂,但是国内的报表总是非常复杂,可见中西方的思考问题的方式也存在差异,因此很多用户尽管感受到数据仓库是一个好东西,但是总是不愿意做第一个吃螃蟹的人4数据仓库概念过大,很多用户总感受可望不可及,而且现在数据仓库技术总是流于形势,未能与具体的行业与应用建立联系,尽管SAS有过这方面的尝试,但是还是过于空泛,没有达到预期的目标,而且数据仓库通常都是一种较为高层的应用,在建设是需要通盘考虑企业的IT整体规划,因此这种技术只有落到实处才能有它的生命力因此,可见在国内,数据仓库市场实际上是非常广阔的,但是由于存在着这样那样的问题,从而阻碍了数据仓库在国内的进展,假如谁能够首先解决这些问题,作出一个成功的,有足够说服力的数据仓库应用,谁就能够在这个市场上领先一步并迅速占领市场,毕竟数据仓库市场的门槛还是比较高的并不是说想进入就能够进入的为数据仓库提供咨询服务数据仓库方案帮助你围绕企业组织把企业组织里的原始数据转换你能够掌握的最强有力的竞争工具一信息.然而正如成功的概率说明,实施数据仓库不是一项轻而易举的任务.上海宝钢信息产业有限公司的咨询专家却能够助你一臂之力.上海宝钢信息产业有限公司在全世界有300多名咨询专家,使用一种面向过程的基于体系结构的方式帮助所有行业的公司在数据仓库方案实施中取得圆满成功.上海宝钢信息产业有限公司认为,成功的数据仓库下列是必不可少的面向处理过程数据仓库不是典型的项目工程.一个项目工程指的是存在已知的要求条件,围绕它们能够建立一个系统.然而数据仓库的要求是一些问题.有些问题能够预测,而其他问题取决于用户在晨报所读到的信息.结果,数据仓库不能成为一个系统,而成为一个处理过程,通过处理可预测与不可预测的问题都能够得到解答.基于体系结构假如我们把数据仓库化看成一个处理过程,那么体系结构就格外重要.一个好的体系结构能够让体系结构按用户的要求进展,提高与变化.比如,假如你不需要回答用户问题的外部数据,情况将是什么样的呢?假如后来,你需要集成外部数据,那么你的体系结构能够胜任处理吗?当你每三到四个月在压力下产生错综混乱的结果时你就难以解决这些心头之患.但是,假如你合理规定了体系结构,那么你就不必为此忧心忡忡.上海宝钢信息产业有限公司为数据仓库的建立全过程提供咨询服务数据仓库规划数据仓库化最大的困难之一是投资迅速产生回报(ROD.尽管R0I的关键非常简单一把业务要求与数据仓库紧密结合起来,但是实现这种结合始终还是一个难题.上海宝钢信息产业有限公司提供一个适合于数据仓库规划的可重复使用的框架.上海宝钢信息产业有限公司的咨询专家帮助你实施一个简单明了的方法把用户的信息需求与业务的先后次序一一对应起来,制定一个能够随着业务需求的变化不断与数据仓库重新紧密结合的终局性实施方案.不管你是第一次规划,还是需要一个结合现有规划的计划框架,上海宝钢信息产业有限公司的DataWarehouseP1anning(数据仓库规划)产品都能够给予帮助.数据仓库系统结构定义我们建立数据仓库支持决策制定,但是制定决策是一个持续演变的过程.因此,按进展进度而不是围绕静态的系统建立要求规定一个支持数据仓库的系统结构非常重要.上海宝钢信息产业有限公司通过提供DataWarehouseArchitectureDefinition(数据仓库系统结构定义)帮助你规划与制定数据仓库满足你的要求.数据仓库样板拥有一个成功的数据仓库要求端用户的不懈努力与高水平的管理.假如你的客户往常从没有见过数据仓库,那么要取得成效就存在困难.上海宝钢信息产业有限公司能够帮助你迅速地部署一个作业模型形象说明数据仓库的强大威力,与展示其所能够提供的存取类型与分析功能.数据仓库建造成长性的进展是所有数据仓库化方案的成功因素.它不仅让利润随着成本的增加而增加,还让我们把数据仓库建造计划与变化的业务要求紧密结合起来.利用上海宝钢信息产业有限公司的DataWarehouseConstruction产品,上海宝钢信息产业有限公司的咨询专家能够帮助你通过三到四个月的一系列数据仓库建造工作极大地满足用户的信息需求.每三到四个月的〃增长〃涉及到完全的反复分析,计划,建造与提高,这样数据仓库的建造与当前的业务需求紧密结合起来.数据集市建造不管是相依的,独立的,还是两者结合,数据集市都是数据仓库系统结构的有价值的构成部分.尽管在几个方面类似数据仓库,但是数据集市在建造过程中引起不一致的问题.比如,数据提取与转换在数据仓库建造中是至关重要的,与此相反,数据分布与汇总/聚集在数据集市建造中起到更关键的作用.这些差异是上海宝钢信息产业有限公司的DataMartConstruction(数据集市建造)产品的基础,上海宝钢信息产业有限公司将利用这些差异帮助你在你的环境里建造成功的数据集市.数据仓库管理一旦数据仓库瓜熟蒂落,大多数的企业组织发现他们又面临新的挑战管理数据仓库的生命周期.作为一个不断进展的过程,系统结构的许多地方需要按时管理数据仓库,包含内部营销运动,性能管理与使用管理等.通过使用我们的DataWare-houseManagement(数据仓库管理)产品,上海宝钢信息产业有限公司的咨询专家将帮助你在特殊的环境里确定你所需要管理的基础设施范围并实施管理.数据移动工具集成提取与转换数据的工具或者数据分布工具已经为人熟知,许多企业组织使用这种类型的软件从数据源向数据仓库化环境移动与集成数据.假如你已经选择了上海宝钢信息产业有限公司的数据移动工具,那么上海宝钢信息产业有限公司能够帮助你实施与集成这些工具形成一个全面的数据仓库化的解决方案.况、公司的利润分布等进行统计与分析从而获得以往一直想获得但却无法获取的关于客户在本公司的行为、盈亏、习惯等关键信息证券商在获得这些信息后,就有能力为客户提供针对其个人习惯、投资组合的投资建议,从而真正作到对客户的贴心服务[实例]:深圳国信证券建立数据仓库1999年4月,深圳国信证券的数据仓库系统(由Sybase公司提供解决方案)一期工程完成,该项首期投资近200万元数据仓库系统建设的出发点是为当前公司的决策者提供快速有效的各类报表与分析方式,提高公司的市场反应速度与竞争力水平更有效地发挥0LTP系统的效益,在此基础上“多快好省”地建设DataWarehouse/DSS同时,考虑到公司业务系统的不断完善与决策支持的更高要求,对不断增长的企业数据具有无限的可扩展性并提供可控的快速查询响应时间该系统包含了客户分析、账户分析、证券汇总分析、资金交易分析、非资金交易分析等多个业界关心的主题公司用户能够通过固定灵活报表、多维分析等多种形式实现多个层面的数据访问,数据访问的手段包含访问授权的内部Web站点、通过自动E-Mail邮件转发、直接Client/Server连接等多种方式该系统的完成是国内开放平台数据仓库系统建设的一个成功案例二.在银行领域的应用关键字数据仓库、银行随着社会主义市场经济改革的深化,传统的计划金融模式逐步瓦解,市场金融模式逐步形成在这个变革过程中,由于体制、市场、企业、个体等经济要素变化、进展的不平衡性,带来了银行对各类金融变量操纵的随机性与模糊性,如何防范银行的经营风险、实现科学管理与进行决策,成为当今金融研究的一个重要课题90年代出现的数据仓库、OLAP(联机分析)、数据采掘、多媒体、高带宽网络技术,使银行的科学管理有了一个新的技术支持利用数据仓库的强大功能,银行能够建立企业客户群、个人客户群的数据库,并对企业的结构、经营、财务、市场竞争等多个数据源进行统一的组织,形成一个一体化的存储结构,为决策分析奠定基础通过先进的信息加工、分析、处理软件,加上银行的经营决策、信贷营销人员的个人经验,对每一个投资方向、每一笔贷款作出科学的推断,能够有效操纵投资、信贷风险银行决策支持系统是建立在银行管理信息系统基础之上的、以银行数据库与数据仓库为基础,包含各类辅助制定货币政策、开拓金融业务等的模型库、方法库与知识库目前,在国外运用非常成功的有决策支持系统比如有许多著名的金融机构从基于大型主机信息管理的多个系统,转向一种客户/服务渊结构下的数据仓库解决方案惠普开放数据仓库是被用在金融服务中增加决策支持的框架,这个金融业后台管理的工具更类似于传统的“仓库”一旦它的数据项被下载,在一个集中的存储单元以一种有序的方式登录及存储,能对数据进行检索、求合,以各类格式装入多个地址能够给决策支持一个共同的信息源,消除很多金融服务机构的“数据混乱”的现象[实例1]:南京市利用数据仓库技术实施贷款证制度[实例2]中国银行省、市两级金融管理信息系统使用数据仓库技术中国银行省、市两级金融管理信息系统是中国银行广东省分行承担开发的国家“八五”科技攻关项目(子专题编号85-712-14-9-9)该系统在工程组织与总体方案设计上使用数据仓库(DATAWAREHOUSE)及联机分析处理(OLAP)理论系统重点围绕中国银行资产负债管理的要求,建立覆盖全省22家分行的数据采集网络,初步实现了计算机业务系统数据与手工报表数据采集、存储的自动化同时面向各级经营管理人员,开发出财务分析、业务管理、动态报表与金融资讯计50余项管理分析应用1996年3月,系统在本行投入使用,至97年7月,系统已在广东省22家分行全面推广使用,成为中国银行省、市分行实行科学管理的有力工具中国银行省、市两级FMIS系统在利用与规范现有网络资源、系统资源的基础上,构造出数据采集、数据仓库、数据呈现三个分系统框架与中国银行收付清算网络、中国银行办公自动化网络、香港德励财经资讯网络,与ES/
9000、AS/400主机业务系统均实现了连接与集成[附例]:明口银行的展示ATM(自动柜员机)或者自助终端提供商NCR其新近在英国苏格兰生产厂开发生产了视网膜识别ATM系统,该系统结合数据仓库技术模拟了未来银行的运作过程步入这家银行,该客户便被作为特殊的个人对待通过终端擦过其银行卡,便会给出一个特别编号的排队票,该票直接与银行的数据仓库连接,瞬时识别用户,并送出一条是谁在等待的信息…此后代表用户的就是一个号码柜员机顶上的视频屏幕显示出按照用户剪裁的广告比如在数据仓库储存的交易说明,用户已申请一项抵押,屏幕上就可能出现一个家庭保险的广告在柜台旁边这是一对一的关系,而柜员机随时拥有同一用户的信息,并可提供特殊顾问的帮助整个过程不用纸与笔,用户在电子键盘上与银行达成协议传统银行潜力有限,运营成本太高“明日银行”告别了烦琐的手续与规定,假如一项贷款需要资深经理审批,银行的网络系统便会自动将电子文件与一条电文发送给这位经理,让其对此发出指示挪威联合银行估计,仅表格一项每年就可节约1000万美元银行员工也不再需要在每天结束工作前,花费一两个小时填各类报表、跟踪贷款请求与其他管理业务NCR已帮助挪威联合银行设计并实施一种新型总体“银行平台”,包含用户与银行打交道时用到的所有信息、规则与过程,从银行到ATM电话与InternetNCR在几周内帮助这家银行建立了一家Internet银行实现从银行到数据仓库,再到每个交付渠道的经营业务新模式三.在税务领域的应用关键字数据仓库、税务增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担与干扰,是税务稽征部门的重要目标然而这些目标往往又是相互冲突的,要在其间找到最适当的平衡点非常困难通过应用数据仓库技术,对税收部门的内部与外部数据进行综合分析处理,能够解决三个方面的问题一是查出应税未报者与瞒税漏税者,并对其进行跟踪;二是对不一致行业、产品与市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务征稽策略;三是对不一致行业、产品与市场应收税款进行预测,制定最有效的征收计划数据仓库技术之因此能够查出漏税者,其基本思想是通过对大量数据资料的分析来掌握各行各业、各类产品与各类市场的从业人员与企业的纳税能力,并与事实上际纳税金额进行对比,从而查出可能的偷漏税者数据资料获取与匹配技术是这一功能的基础,数据挖掘技术DataMining也必不可少这些技术所面临的一大挑战就是数据来源的多样性数据量非常大,而且以不一致的形式来自不一致的地方与部门有效利用这些数据就是NCR推出可伸缩数据仓库ScalableDataWarehouse的目的可伸缩数据仓库是由纳税人特征描述系统对纳税人过去的行为进行分析,由市场划分系统将具有相似特征的纳税人归入同一类,继而对这一类纳税人的普遍行为做出预测,设计出适合这类纳税人的税务征稽方案数据仓库技术在政府税收部门的应用带来的效益是可观的澳大利亚政府税务部门将数据仓库技术用于支持税收业务系统通过3年的运行,投入回报率达到115美国德克萨斯州政府税务部门使用数据仓库技术半年,而且工程尚未结束,每月已可带来600万美元的收益,估计每年的收益将超过8000万美元[实例]:深圳市国税局与深圳奥尊电脑公司合作开发新一代税务信息化系统近日,深圳市国税局与深圳奥尊电脑公司合作,以蛇口国税为试点,开发了新一代税务信息化系统,目前已投入运行该税务信息系统以办公自动化为核心,实现跨平台、跨区域、多功能的智能办公系统全面融合电话报税系统、网上税局技术,使纳税人通过电话或者Internet进行纳税申报与企业报表填报,提供税务系统的业务数据统计分析功能及数据仓库系统决策支持功能这种税务电子一体化的技术既方便了纳税人,实现了多渠道报税,又减轻了税务人员的工作负担,实现了业务处理上的申报自动化;同时通过企业填报各类发票清单与财务报表,使税务稽查变得有据可依,而且在这些丰富的数据基础上利用数据仓库技术,实现决策支持,提供有用的统计分析结果四.在保险业的应用与实例关键字数据仓库、保险业随着商业保险公司业务系统日趋完善,数据交换与处理中心的建立,如何满足保险行业日益增长的各类查询、统计、报表与分析的需求,如何提高防范与化解经营风险的能力,如何有效利用这些数据来实现经营目标,预测保险业的进展趋势,甚至如何利用这些数据来设计保险企业的进展宏图,在猛烈的竞争中赢得先机是保险决策支持系统需要解决的问题,也是目前保险企业在信息技术应用上的首要难题数据仓库技术、联机分析处理技术的日趋成熟与Internet的普及加速了决策支持的有用化过程[实例]:菲奈特与深圳华安保险公司的合作五.操纵金融风险的应用关键字数据仓库、金融操纵金融领域的风险是当前全球经济界最关注的问题之一,去年开始的东南亚金融危机不但没有缓与,反而有波及全球的趋势,其中一个重要原因就是各金融机构缺乏风险管理中国也面临着类似的问题从金融业务角度来讲,在70年代,金融业务大多运行在主机系统上,系统庞大而且复杂,由IT部门来掌管,业务人员几乎100%地听从IT技术人员的安排在这一阶段,几乎能够说是金融机构中的IT部门带动金融业务的进展;到了80年代末期,PC机大规模普及,金融机构的业务人员自己就能够购买到小巧、有用的应用软件,在此基础上开展了很多新的应用,不再受制于IT部门这一方面丰富了业务种类,另一方面也形成了很多“信息孤岛”,使金融机构很难将各类各样的应用统一起来,领导决策层也很难搞清晰机构的整体运作情况,存在风险的可能性更大从技术角度来讲,在这种情况下,数据仓库是使这些信息集成起来的最有力的方式,数据仓库技术与与其他软件有机集成,能够有效地进行金融运作中的风险管理这也是数据仓库技术与产品近年来十分流行的原因防范金融风险的关键是强化中央银行的金融监管能力特别是一旦人民币可自由兑换,我国的金融业将直接面临国际金融市场的冲击,中央银行的金融监管作用就愈加重要为加强金融监管与调控能力,从80年代中期开始,人民银行就在加快金融电子化建设,建立了金融卫星通信网,运行全国电子联行系统等多项业务系统,1993年还开通了金融信息快速采集传输系统工程在此基础上,应不失时机地建立相应的基于数据仓库上的金融预警系统与智能化的金融监控系统一旦这些系统建成,并能实现互动操作,就将构成完整的中央银行的支付体系与金融监控体系,将为有效地履行中央银行的职能提供强有力的保证,才能使我国的金融监控体系建立在可靠的基础之上,才能实时地监控着整个国民经济的运行情况,防范各类金融风险于未然[实例]:多家证券、银行机构使用数据仓库技术目前,华尔街62%的银行、保险、证券等机构使用数据仓库技术进行风险管理,其中包含著名的摩根•斯坦利、花旗银行、加拿大蒙特利尔银行、加皇银行等数据仓库服务器SybaselQ复制服务器Replicationserver与其他有关软件,帮助金融机构进行风险的评估、预测与防范等工作,从而使风险操纵到最小六.在客户服务及营销方面的应用关键字数据仓库、客户、营销1在客户服务方面数据仓库是以数据库技术为基础但又与传统的数据库应用有着本质区别的新技术,CRM就是基于数据仓库技术的一种新应用但是,从商业运作的角度来讲,CRM事实上应该算是一个古老的〃应用〃了比如,酒店对客人信息的管理,酒店很自然地会明白常客的某些习惯与喜好,当客人再次光临时,不用客人自己提出来,酒店就会提供客人所喜欢的服务这就是一种CRM只是它并没有使用高科技手段,而是通过古老的诸如记在卡片上等方式来实现的CRM是一个新兴的客户服务市场,据GartnerGroup的Dataquest的市场研究说明,美国的CRM市场开发利用尚不到20%而在欧洲与亚太地区,该市场还是一片空白估计CRM市场到2002年将以44%的年复合增长率迅猛进展,假如Internet商务1-commerce的进展速度比预期的更快,这个数字会更高适合CRM市场的软件要紧是把现有传统系统与多年来收集的客户数据进行集成的产品现代商业竞争越来越猛烈,客户群体越来越庞大,客户对服务的要求也越来越高,因此CRM远远超过了上述简单的内容,仅靠手工是难以完成的但是,由于不一致企业的客户群各不相同,客户管理的内容也千差万别,因此开发出〃放之四海而皆准〃的万能CRM产品也是不现实的,而是需要针对不一致行业提供不一致的CRM产品目前,Sybase能够提供面向4个行业领域的CRM产品,即电信、金融、保险、医疗保健在这4个产品中,有80%的功能是共性的,有20%的功能需要Sybase与合作伙伴共同针对不一致客户的不一致需求进行开发其中80%共性功能包含7个模块客户概况分析Profiling包含客户的层次、风险、爱好、习惯等;客户忠诚度分析Persistency指客户对某个产品或者商业机构的忠实程度、持久性、变动情况等;客户利润分析Profitability指不一致客户所消费的产品的边缘利润、总利润额、净利润等;客户性能分析Performance指不一致客户所消费的产品按种类、渠道、销售地点等指标划分的销售额;客户未来分析(Prospecting)包含客户数量、类别等情况的未来进展趋势、争取客户的手段等;客户产品分析(Product)包含产品设计、关联性、供应链等;客户促销分析(Promotion)包含广告、宣传等促销活动的管理——这就是CRM中所谓的〃7P〃2)在营销方面市场信息数据仓库有一个新的挑战保持用户这需要找到一种方法,运用收集到的数据来预测用户未来的购买行为,这就是数据库营销法的所在数据库营销就是把数据库采掘与预测模型与台式显示工具结合起来,以帮助市场营销人员对客户行为作深入的洞察分析最终的目标是预测用户的忠诚度,也就是什么用户对该品牌依然衷情,什么用户甘愿转向其他假如能够预测到这些行为,就能够有更大的机会来留住客户减少用户的转向,保持原有的用户市场比开发许多市场要廉价得多,特别是在电信与无线通信领域更是如此电信与家电领域的管制撤销意味着用户有了更多的选择,用户的多种选择关于公司来说又意味着用户流失的风险与更高的市场营销费用成功实现数据库营销系统的关键在于3方面组件的集成
(1)存储在数据仓库或者数据处理机中的事实数据——大都来自于帐目系统;
(2)统计技术或者使用预测模型的工具;
(3)功能强大的展示工具目标是实现一个能产生精确描述客户群的程序一旦数据采掘引擎从数据仓库中挑出一组客户,下一步是进一步推测分析精确的客户特征,这些特征反应什么用户最有可能转向一项竞争产品或者服务对每一轮新产生的客户数据,都产生一组新的统计模型来分析客户群懂得预测模型与他们如何实现并不是很容易的事,事实是大多数IS商家都没有独立进行这种项目的准备在这个领域,大多数的IS经理们认为他们组件建立不了预测模型,而务必结合数据仓库技术与数据采掘技术懂得预测模型[实例]:南加利福尼亚石油公司实施数据库营销计划在南加利福尼亚石油公司,管制撤销是启动数据库营销计划的推动力,这家公司利用它的大型机与DB2数据库,并完善了它现有的数据分析工具来聚焦它的营销目标在过去两年里,该公司使用数据采掘技术来预测用户行为,使其直接营销费用节约了大约40万美元使用数据库营销技术、市场部能够全面描述最可能继续合作的用户群运用SAS来推测什么用户需要石油,便可集中注意力于这些用户,给予他们最优厚的夏冬季差价然后,建立一个模型用来分析每一位用户,把最可能的客户选出,因此就把市场注意力转向他们这样做关于直接营销来说,在7%到11%之间回应率是很可观七.在保健领域的应用关键字数据仓库、保健[实例1]美国Columbia/HCA保健公司使用3C0M信息技术提供保健保证在保健方面,美国Columbia/HCA保健公司,美国一家赢利性医院系统,使用一项3coM信息技术来帮助它在这个不断变化的时代提供保健保证在3coM技术中就成功地用到数据仓库,它用来跟踪结果与制订连续性保健协议Columbia/HCA是个庞大企业,该公司的信息系统机构有3万名雇员、约350家医院(平均拥有大约200张床位)、150个流淌手术中心、180个技术熟练的护理中心与100多个精神病保健单位该公司每天接待10多万名病人,而每年就要给病人做190万个手术数据仓库利用3coM技术较好地解决了公司机构的复杂性[实例2]美国健康服务公司AetnaHealIhcare建立数据仓库美国一家大型的健康服务公司AetnaHealthcare为了实现以较低费用获取较高质量的治疗效果,制订出适当而可靠的标准,建立了一个独立完整的数据仓库,它根据医疗诊断、门诊、药房到实验室数据资料,揭示出如何以较低费用获取较高质量的治疗策略趋势与模式,从而实现低成本高效益八.在其它领域的应用关键字数据仓库[实例1]NCR联合太平洋铁路公司,将几百个数据库合并转换成数据仓库应用系统,能准确识别豁免税购买,一年能节约100万美元营业税通过在部分铁轨上提速,每月节约30万美元应用系统在可支付帐目、设备保护、市场营销与汽车与火车头调动等方面提高了操作效率,改进了服务质量[实例2]Sears服装集团公司建立的数据仓库应用系统能够监视每个分店的销售情况,并使他们实现具有本地市场特点的战略目标如零售商能够在竞争对手的商店中适当安排电子类产品,扩大营销范围在地区与少数民族市场上,为顾客提供他们所需的花色齐全的服装[实例3]比利时国家电信经纪人使用数据仓库建立的顾客信息系统,其中数据仓库拥有超过1万亿字节的数据,包含四个多月的电话通信记录通过欺骗检测功能,能够很快发现反常电话与欺骗性的打电话方式,并能在造成重大经济缺失之前终止这种欺骗行为[实例4]美国东北部农场主所有的最大联营公司之一Agway公司,在被竞争对手抢走了一些市场份额后,建立了数据仓库应用系统,将焦点对准市场机遇,扩大了销售额,提高了利润,使市场情况得到好转。