还剩1页未读,继续阅读
文本内容:
1.1Python数据分析概述数据分析概念数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程通俗而言,数据分析就是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律数据分析是数学与计算机科学相结合的产物数据分析的流程
(一)需求分析首先是明确数据分析目的,只有明确目的,数据分析才不会偏离方向,否则得出的数据分析结果不仅没有指导意义,亦即目的引导对数据进行需求分析,要清晰界定需要回答的问题“对问题的界定有两个标准,一是清晰、二是符合现实要开展数据可行性论证,论证现有数据是否足够丰富、准确,以致可以为问题提供答案,项目是否可行取决于这步结论除了在识别问题、根据问题设计问卷、之后展开调查获得的数据外,而对于大数据而言,是企业或者个体各类活动产生的附属产品作为附属产品,大数据往往不是为了特定数据项目生成,也存在较高噪音要求数据可行性论证过程需要仔细推敲,现有数据得出来的结论是否足够可靠由于大数据分析技术本质属于数据挖掘法,过度拟合问题往往是大数据分析的难点明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据收集、处理以及分析提供清晰的指引方向(-)数据获取数据收集是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据这里的数据包括一手数据与二手数据,一手数据主要指可直接获取的数据,如公司内部的数据库、市场调查取得的数据等;二手数据主要指经过加工整理后得到的数据,如统计局在互联网上发布的数据、公开出版物中的数据等也有通过网络爬虫爬取的数据
(三)数据预处理数据预处理是指对采集到的数据进行加工整理,形成适合数据分析的样式,保证数据的一致性和有效性它是数据分析前必不可少的阶段数据处理的基本目的是从大量的、可能杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据如果数据本身存在错误,那么即使采用最先进的数据分析方法,得到的结果也是错误的,不具备任何参考价值,甚至还会误导决策数据处理主要包括数据清洗、数据转化、数据抽取、数据合并、数据计算等处理方法般的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数据也需要先进行一定的处理才能使用
(四)分析与建模大数据分析项目需要建立的模型可以分为两类对于这两类模型,团队都需要在设立模型、论证模型的可靠性方面下功夫
1.专业领域模型大数据产品对应的项目可能有对应的专业领域模型,例如PEST分析模型、5W2H分析模型、逻辑树分析模型、4P营销理论模型、用户行为模型等数据团队需要明确为何选择某个专业领域的模型
2.数据分析模型这类模型包含分析结构化数据的数据挖掘算法模型;处理非结构化数据的语义引擎;可视化策略等流行观点中的大数据分析主要集中在对第二类模型的讨论上建立模型时既需要强大运算能力,也需要专家的主观判断
(五)模型评估与优化评估结果阶段是要评估上述步骤得到的结果是否足够严谨可靠,并确保数据分析结果能够有利于决策评估结果包括定量评估和定性评估两部分
1.定量评估定量评估是关注主观标准的可靠性数据挖掘分析方法在计算上虽然依靠技术,但不少关键节点依靠主观标准
2.定性评估定性评估的重点是考察大数据分析的结果是否合理、方案是否可行在评估大数据分析的结果时,由于定性评估往往需要一段时间之后才能完成,因此将大数据分析结果用于现实时,需要采取审慎步骤
(六)部署完成模型评估,最后就是模型的部署,应用于生产环境产生效益,并通过实际应用不断改进模型和数据处理分析过程数据分析应用场景数据分析应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了数据分析的印迹•制造业利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程•金融行业大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用•生物医学大数据可以带助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘•互联网行业借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放•物流行业利用大数据优化物流网络,提高物流效率,降低物流成本•城市管理可以利用大数据实现智能交通、环保监测、城市规划和智能安防•网络安全新型的病毒防御系统可使用数据分析技术,建立潜在攻击识别分析模型,监测大量网络活动数据和相应的访问行为,识别可能进行入侵的可疑模式,做到未雨绸缪•欺诈行为检测身份信息泄露盗用事件逐年增长,随之而来的是欺诈行为和交易的增多公安机关,各大金融机构,电信部门可利用用户基本信息,用户交易信息,用户通话短信信息等数据,识别可能发生的潜在欺诈交易,做到提前预防未雨绸缪Python数据分析的优势■语法简单精练对于初学者来说,比起其他编程语言,Python更容易上手■有很强大的库可以只使用Python这一种语言去构建以数据为中心的应用程序■不仅适用于研究和原型构建,同时也适用于构建生产系统研究人员和工程技术人员使用同一种编程工具,会给企业带来非常显著的组织效益,并降低企业的运营成本■Python是一门胶水语言Python程序能够以多种方式轻易地与其他语言的组件“粘接”在一起Python数据分析工具Python数据分析常用工具♦Numpy♦Pandas♦Matplotlb♦Ski earn科学计算库-Numpy NumPy是一个运行速度非常快的数学库,主要用于数组计算,包含>一个强大的N维数组对象ndarray>广播功能函数>整合c/c++/Fortran代码的工具>线性代数,傅里叶变换、随机数生成等功能数据预处理及统计分析库-Pandas Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具>提供了一系列能够快速、便捷地处理结构化数据的数据结构和函数>高性能的数组计算功能以及电子表格和关系型数据库如SQL灵活的数据处理功能>复杂精细的索引功能,以便便捷地完成重塑、切片和切块、聚合及选取数据子集等操作数据可视化库-Matplotlib Matplotlib----绘制数据图表的Python库>Python的2D绘图库,非常适合创建各类图表>操作比较容易,只需几行代码即可生成直方图、折线图、条形图、错误图和散点图等图形>提供了pylab的模块,其中包括了NumPy和pyplot中许多常用的函数,方便用户快速进行计算和绘图>交互式的数据绘图环境,绘制的图表也是交互式的.机器学习模型库-scikit-learn skiearnscikit-learn一一数据挖掘和数据分析工具>简单有效,可以供用户在各种环境下重复使用>封装了一些常用的算法方法>基本模块主要有数据预处理、模型选择、分类、聚类、数据降维和回归6个,在数据量不大的情况下,scikit-learn可以解决大部分问题。