还剩19页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
OnceDI中监视系统的设计与实现报告人吴辉导师叶丹高级工程师2011-1-18选题依据及意义国内外研究现状研究内容与研究方案工作进展与工作计划内容提纲数据集成数据集成是将不同来源与格式的数据逻辑上或物理上进行集成的过程
[1]ETLExtractTransformLoadETL完成跨数据源的数据抽取,并将数据经过一定的转换,最终加载到目的端数据源,是数据集成系统的重要组成部分抽取转换加载
[1]Wikipedia选题根据及意义
(2)数据集成中间件OnceDIControlCenterExtractDBDIServerInternetDIServerLoad保证正确性和完整性XML网络情况复杂分布式体系结构从全局了解系统情况分布式ETL过程了解整个ETL过程的调度执行情况和数据迁移情况关心历史数据统计分析评估系统性能、辅助决策ETLMonitoring
[2]ETL过程相关指标执行状态、执行时间、抽取速率、加载速率、吞吐率等“Youwillwanttomonitorjobstatusforalljobrunsinitiatedbythejobschedulerincludingpendingrunningcompletedandsuspendedjobs…”系统基础设施性能指标CPU使用、内存使用、磁盘读写速率、网络传输速率等数据统计“Usersoftenwanttoknowexactlywhenatablehasbeenloadedorifanyrowswererejected…”“capturingthehistoricaldatatosupporttrendingperformanceovertime.““BesuretotriggeralertswheneveranETLjobtakessignificantlymoreorlesstimetocompletethanindicatedbythehistoricalrecord.”
[2]RalphKimballJoeCaserta.TheDataWarehouseETLToolkitPracticalTechniquesforExtractingCleaningConformingandDeliveringData.Wiley2004国内外研究现状
(2)主流ETL工具的监控功能ETL中间件InformaticaPowerCenter,Talend,IBMDataStage数据库附带ETL工具MicrosoftSQLServerIntegrationService,OracleDataIntegrator不足统计分析功能简单,大多没有提供监视ETL过程执行进度的功能其它低干扰Lowintrusion可配置研究内容和研究方法
(9)监视信息流OnceDI控制流OnceDI数据流监视系统的体系结构StudioMonitorClientMonitorCenterDIServerMAgentDIServerControlCenterMAgentRelationalDBMAgentXMLMonitorClientPresentation监视系统的体系结构Client.cfgConfigurationDataInterfaceDataManagerSessionClientInterfaceMonitorCenterMCenter.cfgDataCashCentralManageraccessDataMAgentAlarmAnalyzerMAgent.cfgHeartBeatCollectorDataProcessorMergerFilterModelHandlerManagerSessionPushPullModelHandlerAgentRegisterSessionPreprocessorDispatcher
1.监视信息的收集和传输
2.监视信息的组织和存储
3.监视信息的统计、分析和展示
1.监视信息的收集和传输目的通过收集各种监视指标来反映系统当前的行为和状态ETLindicatorsMetadatanameauthortypeETL过程的执行进度====C==re==a=te==ti=m==e======S=o=u=r=cetarget……•T3开始连接数据源;ProgressStart/EndtimeExtracted/loaded•Tro4w s连接数据Pr源oc成es功si;ngrateDetails•T5开始抽取数据;PerformanceresultsDurationProcessedrowsS•Tuc6c es已s/抽fai取led10ro0w0s条;Read/writeErrors•T8关闭数据源;throughputInfrastructureindicators•T9关闭数据源成功;•T10开始发送数据;……Distributedsystem:HeartBeat由MAgent负责收集和过滤传输元数据数据量比较小,而且不需要经常更新,又有可靠性要求方案采用Pull的方式,使用TCP协议性能、心跳和进度数据量比较大,更新频繁,不适合用TCP协议方案Push到MonitorCenter,使用UDP协议存在的问题高效可靠?对于ETL的进度和结果信息是用户最关心的指标,也是统计分析的依据网络环境复杂,基于UDP虽然高效但是不可靠数据量大,对OnceDI系统网络产生了影响MonitorCenterUDPentMAgAgentMMAgent如何压缩数据量基于模型的监视信息还原技术ETL进度信息可以抽象成为一个模型……
1.连接数据源T3;
2.连接数据源成功T4;
3.开始抽取数据T5;
4.已抽取1000条T6;
5.关闭数据源T8;
6.
(1)关闭数据源成功T9;
(2)关闭数据源失败T9;
7.开始发送数据T10;123456
(1)失败6
(2)执行终止……7不会导致终止执行的错误
1.保障可靠性信息恢复、顺序调整12131124334
(1)4可确定1~5均已发生2235失败46
(1)接收到了
652.压缩数据量只传输关键结点126
(1)76
(2)关键结点34接收方可还原1~556
(1)发送方只发送关键结点6
(1)用户可根据需要进行配置关键问题模型的构建和关键结点的定义可由用户提供配置文件,MonitorManager和MAgent均解析该文件构建模型1中间结点的实例敏感信息的还原策略2发送方缓存机制+关键结点捎带3出现失败发送方缓存机制+动态关键结点关键结点丢失超时重传或使用TCP成为动态关键结点456
(1)失败6
(2)
72.监视信息的组织和存储将当前系统的重要指标数据进行持久化,以支持后续的统计分析池化的思想管理主存初步计划使用文本型关系数据库来存储遗留问题还需要再考虑一下存储模式设计研究内容和研究方法
(13)元数据和运行时数据ETLJOBPKJOBIDnameauthortypecreated_timesourcetargetprocess_belongedsTaskIdrTaskIdsDIServertDIServerETLJOB_RUNTIMEPKPKjobidstartenddurationprocessedRowsrejectRowsthroughputerrorssuccessERRORPKidtaskIddescleveltimestampDIServerPKGUIDnamecpumem_sizedisk_size基于元数据的统与某数据源关联的所有ETL任务(计报表)某时段执行的ETL任务(报表)……基于运行结果的a自T时间以来,系统中所有ETL任统计务的活跃情况(柱状图)b某ETL任务自T时间以来(或最近N次执行)产生的错误类型的比例(饼图)……基于性能的统计a流程/ETL任务自T时间以来每次的执行时间/CPU使用/内存使用/缺页中断的变化情况(折线图/柱状图)b某次流程/ETL任务执行时阶段的用时比例(饼图)c某流程/ETL任务各次的执行时间,结果,吞吐率等(报表)……
3.监视信息的统计、分析和展示整合系统中的各种监视信息,帮助用户更直观、更容易的了解整个系统通过基于统计值的分析,查找和定位可能存在的瓶颈或问题⑴统计
(2)基于统计结果的分析和报警机制发现问题对于某个ETL任务,统计T时刻以来的的执行时间/吞吐率的平均值,当正在执行的时间超出调整范围时时,报警定位问题对比该ETL任务各阶段(抽取、传输、加载)和统计均值,确定问题所在阶段统计ETL任务执行时各阶段的耗时比例,有助于发现系统瓶颈
(3)展示提供折线图、柱状图、饼图、报表等多种展示方式定义标准数据接口,封装图形报表控件,允许用户自行配置展现方式工作进展已完成文献和业界工具监控功能的调研基本完成监视系统的概要设计实现了推式会话方式实现简单的ETL进度信息、服务器性能信息的收集未来工作丰富监视指标,完善信息收集和传输模块优化持久化模型,并实现信息持久化模块实现统计分析和展示模块完成毕业论文工作进展和未来工作谢谢!MetadataofserverCPUnumberandtypeMemorysizeDisksizePerformanceCPUusageMemoryusageVirtualmemorysizePagefaultDiskread/writerate。