还剩129页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
大数据分析师理论知识考试复习题库(含答案)
一、单选题
1.Spark是用以下那种编程语言实现的?、cAB、C++C、javaD、Sea Ia答案:D解析Spark中用Scala开发语法简洁许多,且支持类型推断,可大大提升开发效率
2.在Fus inlnsightManager界面中,对Lader的操作不包括下列哪个选项
0、切换Lader主备节点AB、启动Lader实例C、配置Lader参数D、查看Lader服务状态答案A解析在FusinInsight界面中,对Lader的操作不包括切换Lader主备节点
3.Hive不适用于以下哪个场景单选A、非实时分析,例如日析B、数据挖掘,例如用户析,区域展示C、数据汇总,例如母天,每击数,点击排行解析在Mapper类中,共有4个函数setup、map、cleanup、r uno
24.kafka-c Iustermi rrri ng工具可以实现以下哪个功能、kafka集群数据同步方案AB、kafka单集群内数据备份C、kafka单集群内数据恢复D、以上全部不对答案A解析kafka-c Iustermi rrri ng工具可以实现kafka集群数据同步方案
25.FusininsightHD系统中Hive不支持的存储格式包括A、Textf iIeB、Sequencef iIeC、RCFILED、Hfi Ie答案D解析Fusininsi ghtHD系统中Hi ve不支持的存储格式包括Hfi IeTextfile文本文件Sequencef ilesequenceFi Ie文件是Hadp用来存储二进制形式的[Key,Va lue]对而设计的一种平面文件FlatFi IeRCFi Ie文件格式是FaceBk开源的一种Hive的文件存储格式,首先将表分为几个行组,对每个行组内的数据进行按列存储,每一列的数据都是分开存储,正是先水平划分,再垂直划分的理念H Fi2是HBase存储数据的文件组织形式
26.关于数据分析报告错误的是pstein和barr于1964年首次成功地将burkitt非洲儿童淋巴瘤细胞通过体外悬浮培养而建株,并在建株细胞涂片中用电镜观察到疱疹病毒颗粒,故名PBP B中文名叫平均市净率,是股票投资基本分析最常见的参考指标之一,与市盈率、市销率现金流量折现等指标一样
254.创建Lader作业时哪个步骤中设置Map数?、输出AB、输入设置C、转换D、基本信息答案:A解析创建Lader作业时输出步骤中设置Map数
255.YARN中设置队列Queue的最大使用资源量,需要配置哪个参数?A、yarnscheduIercapacity,rt.Queueaminimum-user-1imitmpercentB、yarn,scheduIercapac i ty,rt.Queueamax imumcapac i tyCyarn,scheduIercapacity,rt.Queuea,minimum,userdimit-factrxD、yarnscheduIercapac i ty.rt.Queuea/stat答案B解析YARN中设置队列Queue的最大使用资源量,需要配置yarn,schedulercap acity,rt.Queueamax imumcapac ity参数
256.下列哪个属性是hdfs-site,xml中的配置A、dfs.rep I i cat i nB、fs.defauItFSC、mapreduce.framewrk.nameD、yarn,resurcemanager.address答案A解析dfs.repl icatin是HDFS集群的副本个数,一般放置在hdfs-site.xml;fs.defaultFS在cre-site.xml中配置,用于确定将HDFS文件系统的元信息的多个备份保存在多个目录下;mapreduce.framewrk.name是在mapred-s ite.xml中配置的,可以替换默认的MR框架为tez引擎;ResurceManager对客户端暴露的地址客户端通过该地址向RM提交应用程序,杀死应用程序等在yarn-site,xml中配置
257.HadpMapReduce支持多种语言编程,下列说法不正确的是()、可以用JAVA语言编写MapReduce应用程序AB、可以用C/C+语言编写MapReduce应用程序C、可以用Pythn语言编写MapReduce应用程序D、可以用JavaScr ipt语言编写MapReduce应用程序答案D解析不可以用JavaScr ipt语言编写MapReduce应用程序,JavaScr ipt是客户端的脚本语言判断题
1..使用Shel I命令insert对HBase中的一张表进行数据添加操作Av正确B、错误答案B解析put表名,rwKey,列族:列‘,‘值’
2.HDFS支持大文件存储,同时支持多个用户对同一个文件的写操作,以及在文件任意位置进行修改As正确B、错误答案B解析HDFS是一个文件系统,支持大文件存储,HDFS不支持多个用户对同一个文件的写操作,只支持一次写入,不支持在文件任意位置进行修改
3.SparknYarn-cl ient适合用于生产环境是因为可以更快地看到APP的输出()A、正确B、错误答案B解析yarn-c Iuster适用于生产环境;而yarn-cI ient适用于交互和调试,也就是希望快速地看到appl i cat in的输出
4.NameNde负责管理元数据信息metadata,cl ient端每次读写请求,它都会从磁盘中读取或会写入metadata信息并反馈给cl ient端A、正确B、错误答案B解析NameNde不需要从磁盘读取metadata,所有数据都在内存中,硬盘上的只是序列化的结果,只有每次namende启动的时候才会读取
5.App I i cat i nmaster采用轮询的方式通过RPC协议向ResurceManager申请和领取资源
0、正确AB、错误答案:A解析App Iicat i nmaster采用轮询的方式通过RPC协议向ResurceManager申请和领取资源
6.SparkStreaming容错机制是指RDD中任意的Partit in出错,都可以根据其父RDD重新计算生成如果父RDD丢失,则需要去磁盘中查找原始数据A、正确B、错误答案B解析SparkStreaming容错机制是指RDD中任意的Part it in出错,都可以根据其父RDD重新计算生成,如果父RDD丢失,可以找父RDD的父RDD
7.HDFS存储数据时,关键数据根据实际业务需要保存在具有高度可靠性的节点中,通过修改Datande的存储策略,系统可以将数据强制保存在指定的节点组中A、正确B、错误答案A解析HDFS存储数据时,关键数据根据实际业务需要保存在具有高度可靠性的节点中,通过修改Dand的存储策略,系统可以将数据强制保存在指定的节点组中
8.如果NameNde意外终止,SecndaryNameNde会接替它使集群继续工作A、正确B、错误答案B解析SecndaryNameNde是帮助恢复,而不是替代,如何恢复,可以查看
9.HDFS是一个部署在集群上的分布式文件系统,因此,很多数据需要通过网络进行传输A\正确B、错误答案A解析HDFS是一个部署在集群上的分布式文件系统,因此很多数据需要通过网络进行传输所有的HDFS通信协议都是构建在TCP/1PB协议基础之上的
10.Hadp系统中,如果HDFS文件系统的备份因子是3,那么Mapreduce每次允许task都是从3个有副本的机器上传输需要处理A、正确B、错误答案B解析Hadp系统中,如果HDFS文件系统的备份因子是3,那么Mapreduce不是每次允许task都是从3个有副本的机器上传输需要处理
11.MapReduce的核心理念是将一个大的运算任务分解到集群每个节点上,充分运用集群资源,缩短运行时间、正确AB、错误答案:A解析MapReduce的核心理念是将一个大的运算任务分解到集群每个节点上,充分运用集群资源,缩短运行时间
12.在Fl ink中,checkpint机制能够保证应用在运行过程中出现失效时,从某一个检查点恢复,在此过程中,流快照是根据数据流入建立的A、正确B、错误答案A解析在Fl ink中,checkpint机制能够保证应用在运行过程中出现失效时,从某一个检查点恢复,在此过程中,流快照是根据数据流入建立的()
13.在YARN的任务调度中,一旦Appl i cat in任aster申请到资源后,使与对应的Resurcemanager通信,要求它启动任务()A、正确B、错误答案B解析一旦Appl i cat inMaster申请到资源后,便与对应的NdeManager通信,要求它启动任务
14.HDFS的NameNde保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息是存储在内存中的、正确AB、错误答案:A解析HDFS的NameNde保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息是存储在内存中的
15.Fus i n i ns ightHD系统中,Hbase支持动态扩展列As正确B、错误答案A解析Fus in ins ightHD系统中,Hbase支持动态扩展列
16.HBase允许创建空表,不需要建立列族A、正确B、错误答案B解析HBase必须有列族
17.Zkeeper所有节点都可以处理读请求、正确AB、错误答案A解析Zkeeper所有节点都可以处理读请求
18.HDFS机制中NameNde负责管理元数据,Cl ient端每次读请求都需要从NameN de的元数据磁盘中读取元数据信息以此获取所读文件在DataNde的位置、正确AB、错误答案:B解析HDFS是一个文件系统,用于存储文件,NameNde负责文件元数据的操作,所有数据都在内存中,不需要从磁盘读取
19.Spark是基于内存的计算,所有Spark程序运行过程中的数据只能存储在内存中A、正确B、错误答案B解析Spark是专为大规模数据处理而设计的快速通用的计算引擎,Spark的运行数据会Cache到内存中,当内存存储不下的时候,可选择性地将计算结果输出到磁盘
20.分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库A、正确B、错误答案A解析分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库
21.Spark任务的Executr可以执行多个taskoA、正确B、错误答案A解析Spark是专为大规模数据处理而设计的快速通用的计算引擎,Executr是spark任务task的执行单元,运行在wrker上,但是不等同于wrker,实际上它是一组计算资源cpu核心memry的集合一个Executr可以并行执行多个task,根据Executr可用的cpu核数,决定一个executr中最多同时运行多少个tasko
22.Hive中“Grupby”指的是通过一定的规将每一个数据集划分成若干个小的数据集然后针对若干个小的数据集进行数据分组处理.、正确AB、错误答案A解析Hive中“Grupby”指的是通过一定的规将每一个数据集划分成若干个小的数据集然后针对若干个小的数据集进行数据分组处理.
23.HDFS的namend保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息也存储在硬盘上、正确AB、错误答案B解析在系统启动的时候从数据节点收集而成
24.Secndarynamende就是namende出现问题时的备用节点A、正确B、错误答案B解析它和元数据节点负责不同的事情其主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并,以防日志文件过大合并过后的命名空间镜像文件也在Secndarynamende保存了一份,以防namende失败的时候,可以恢复
25.Hive是一种数据仓库处理工具使用类sq I的H i vesq IL语言实现数据查询功能所有Hi ve的数据都存储在HDFS中A、正确B、错误答案A解析Hive是一种数据仓库处理工具使用类sql的H ivesq IL语言实现数据查询功能所有Hive的数据都存储在HDFS中
26.Hbase的最小存储单元是Reg inA、正确B、错误答案B解析Hbase的最小存储单元是列cl
27.HDFS中每个数据节点会定期向名称节点发送信息,向名称节点报告自己的状态、正确AA、展示分析结果B、验证分析质量C、展示分析过程D、提供决策依据答案:C解析数据分析报告用来展示分析结果,验证分析质量以及提供决策依据https://zhuanlan.zhihu./p/53857057数据分析报告一项目可行性判断的重要依据
27.UMP系统中的角色不包括、Cntr Iler服务器AB、Prxy服务器Cv Agent服务器D、HDFS服务器答案D解析UMP系统中的角色包括Cntr Iler服务器Web控制台、Prxy服务器、Agent服务器日志分析服务器信息统计服务器愚公系统;依赖的开源组件包括Mnesia、RabbitMQ、ZKeeper和LVS
28.Hive是基于Hadp的数据仓库软件,可以查询和管理PB级别的分布式数据以下关于hi ve特性的描述不正确的是?、灵活方便的ETLAB、易用易编程C、可直接访可HDFS文件以及HbaseD、仅支持mapreducet计算引擎B、错误答案A解析HDFS中每个数据节点会定期向名称节点发送信息,向名称节点报告自己的状态
28.Kata是一个高吞吐.分布式,基于发布订阅的消息系统,利用kafka技术可在廉价FCServer上搭建起大规模消息系统A、正确B、错误答案A解析Kata是一个高吞吐.分布式,基于发布订阅的消息系统,利用kafka技术可在廉价FCServer上搭建起大规模消息系统
29.Hive中的“grupby指的是通过一定规则将一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行数据分组处理.A、正确B、错误答案A解析Hive中的“grupby指的是通过一定规则将一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行数据分组处理.
30.sud是ubuntu中一种权限管理机制,管理员可以授权给一些普通用户去执行一些需要rt权限执行的操作当使用sud命令时,就需要输入rt用户的密码A、正确B、错误答案B解析sud是ubuntu中一种权限管理机制,管理员可以授权给一些普通用户去执行一些需要rt权限执行的操作当使用sud命令时,就需要输入当前用户的密码登录进入系统是普通用户身份,输入$sudpasswd,会提示输入当前用户的密码,输入成功后,会提示输入UN IX的密码(rt的密码),需要二次确认
31.一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点As正确B、错误答案A解析一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点
32.Kafka是一个分布式的消息发布订阅系统,它只是进行消息的转发,并不会保存消息A、正确B、错误答案B解析kafka是一种高吞吐量的分布式发布订阅消息系统,kafka使用日志文件的方式来保存生产者和发送者的消息
33.导入数据到Hi ve表时不会检查数据合法性只会在读取数据时候检查A、正确B、错误答案A解析导入数据到Hi ve表时不会检查数据合法性只会在读取数据时候检查
34.安装完全分布式ApacheHadp的核心配置文件有cre-s i te.xm I,hdfs-s ite.xmI.mapred-site.xml,yarn-site,xmlAx正确B、错误答案A解析:安装完全分布式ApacheHadp的核心配置文件有ite.xm I,hdfs-s ite.oresxml.mapred-s ite.xml,yarn-s ite.xml
35.MapReduce程序可以直接读取HBase内存储的数据内容A、正确B、错误答案A解析Hbase提供了TableMapReduceUti I工具类,可以直接使用,需要提供的包括,表名、Scan对象、mapper的class对象、输入,输出类型的class对象和jb对象
36.Hive不支持超时重试机制()Av正确B、错误答案B解析Hive的优点高可靠高容错,HiveServer采用集群模式,双MetaStre,超时重试机制
37.HBase是Apache的Hadp项目的子项目,利用HadpHDFS作为其文件存储系统,适合于非结构化数据存储A、正确B、错误答案A解析非结构化数据是数据结构不规则或不完整,可以用Hbase存储
38.HDFS分布式文件系统不可以调整冗余数据存储的位置A、正确B、错误答案B解析HDFS和其他分布式文件系统最大的区别就是可以调整冗余数据的位置,不仅是当它发生故障时可以调整,当负载发生严重不均衡的时候,也会实现均衡把这些数据块从这个机器迁移到另一个机器
39.Kafka是一个高吞吐,分布式,基于发布订阅的消息系统,利用Kafka技术可在廉价PCServer上搭建起大规模消息系统A、正确B、错误答案A解析Kafka是一个高吞吐,分布式,基于发布订阅的消息系统,利用Kafka技术可在廉价PCServer上搭建起大规模消息系统
40.Spark应用运行时,如果某个task运行失败则导致整个app运行失败、正确AB、错误答案B解析Spark是专为大规模数据处理而设计的快速通用的计算引擎,当task执行失败时,并不会直接导致整个应用程序dwn掉,只有在重试了spark.task.ma xFailures后仍然失败的情况下才会使程序dwn掉
41.Hadp支持数据的随机读写、正确AB、错误答案B解析:hadp设计的初衷是大规模数据的计算和lap分析,应用场景区别于数据库,所以在HDFS设计时候就侧重在一次写入多次读取
42.HDFS中当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自一些数据节点的心跳信息,这时,这些数据节点就会被标记为“宕机”,节点上面的所有数据都会被标记为“不可读”,名称节点不会再给它们发送任何I/请求A、正确B、错误答案:A解析HDFS中当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自一些数据节点的心跳信息,这时,这些数据节点就会被标记为“宕机”,节点上面的所有数据都会被标记为“不可读”,名称节点不会再给它们发送任何I/请求
43.Spark和Hadp都不适用于迭代计算的场景As正确B、错误答案B解析Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合,采用内存存储中间计算结果,减少了迭代运算的磁盘I,并通过并行计算DAG图的优化,减少不同任务之间的依赖,降低延迟等待时间,适用于迭代计算的场景;Hadp是一个分布式系统基础架构,不适用于迭代计算的场景,因为每次迭代都需要从磁盘中读入数据,向磁盘写中间结果,而且每个任务都需要从磁盘中读入数据,处理的结果也要写入磁盘,磁盘1/开销很大
44.链式MapReduce计算中,对任意一个MapReduce作业,Map和Reduce阶段可以有无限个Mapper,但Reducer只能有一个A、正确B、错误答案A解析mapper的个数是由输入数据的大小决定的,一般不需要我们去设置,Red ucer首先处理由map函数生成的某个key的中间值,然后生成输出0或多个键值对key和reducer是一对一的,reducer的默认值是
145.HBase可以有列,可以没有列族c I umnfami ly、正确AB、错误答案B解析HBase本身的设计目标是支持稀疏表,而稀疏表通常会有很多列,但是每一行有值的列又比较少,所以必须有列簇
46.sea la中基本数据类型和java完全一致、正确AB、错误答案B解析在java和scala共同使用的时候,有时候涉及数据类型的相互转化,比如在使用scalajsn4s的时候很多地方不支持java数据类型Scala与Java有着相同的数据类型,Scala数据类型都是对象,Scala中没有类似Java中那样的原始类型
47.在Fl ink中,checkpint机制能保证应用在运行过程中出现失败时,从某一个检查点恢复,在此过程中,流快照是根据数据流入依次创建的A、正确B、错误答案A解析Fl ink是一个框架和分布式处理引擎;简单地说,Checkpint是一种分布式快照在某一时刻,对—个Fl ink作业所有的task做—个快照snapsht,并且将快照保存在memry/fil esystem等存储系统中这样,在任务进行故障恢复的时候,就可以还原到任务故障前最近一次检查点的状态,从而保证数据的一致性
48.Hadp可以在单节点上以伪分布式的方式运行,Hadp进程以分离的Java进程来运行,节点既作为NameNde也作为DataNde,但是只有一个节点,因此不能读取的HDFS中的文件、正确AB、错误答案:B解析Hadp可以在单节点上以伪分布式的方式运行,Hadp进程以分离的Java进程来运行节点既作为Namede也作为Datande,同时,读取的是HDFS中的文件(hadp伪分布式安装)
49.MapReduce适于PB级别以上的海量数据在线处理A、正确B、错误答案B解析MapReduce适于PB级别以上的海量数据离线处理
50.HBase中pact in的目的是减少同一个Regin,同一个ClumnFami ly下的文件数目A、正确B、错误答案A解析HBase中pact in的目的是减少同一^Reg in,同一个ClumnFami ly下的文件数目
51.SparkStreaming计算基于DStream将流式计算分解成一系列短小的批处理作业
0、正确AB、错误答案:A解析SparkStreaming计算基于DStream将流式计算分解成一系列短小的批处理作业
52.Hadp的NameNde用于存储文件系统的元数据As正确B、错误答案A解析NameNde在内存中保存着整个文件系统的名字空间和文件数据块的地址映射,NameNde负责文件元数据的操作,DataNde负责处理文件内容的读写请求
53.MapReduce计算过程中,相同的key默认会被发送到同一^reducetask处理A、正确B、错误答案A解析在MapReduce中,通过指定分区,会将同一个分区的数据发送到同一个r educe中,例如为了数据的统计,可以把一批类似的数据发送到同一个reduce当中去,在同一个reduce中统计相同类型的数据,就可以实现类似数据的分区
54.H ive中UN INALL操作符用于合并两个或多个se lect语句的结果集,结果集中,不允许有重复的值A、正确B、错误答案B解析Hi ve中UNINALL操作符用于合并两个或多个select语句的结果集,结果集中,允许有重复的值
55.使用Shel I命令create在HBase系统中添加新表操作、正确AB、错误答案A解析create,表名,,’列族名列族名2,J列族名N
156.HDFS集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建删除和复制等操作、正确AB、错误答案A解析客户端需要先访问名称节点获取要读取数据的位置等信息,然后在访问数据节点
57.MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据可计算靠拢”,因为,移动数据需要大量的网络传输开销A、正确B、错误答案D解析目前Hi ve支持MapReduce、Tez和Spark3种计算引擎
29.创建Lader作业中,可以在以下哪个步骤中设置过滤器类型()A、输入设置B、转换C、基本信息D、输出答案A解析创建Lader作业中,可以在输入设置中设置过滤器类型
30.YARN的基于标准调度,是对下列选项中的哪个进行标签化?A、AppmasterB、ResurcemanagerC、NdemanagerD、Cnta i ner答案C解析YARN的基于标准调度,是对Ndemanager进行标签化
31.下列哪些语句关于Java内存回收的说明是正确的?A、程序员必须创建一个线程来释放内存B、内存回收程序负责释放无用内存C、内存回收程序允许程序员直接释放内存D、内存回收程序可以在指定的时间释放内存对象答案B答案A解析MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据可计算靠拢”,因为,移动数据需要大量的网络传输开销
58.Hbase的数据文件File中一个Keyva Iue格式包含Key,ya Ie,Timestamp,Key type等内容、正确AB、错误答案A解析Hbase的数据文件Fi Ie中一个KeyvaIue格式包含Key,ya Ie,Timestamp,Keytype等内容
59.HDFS的Cl ierrt写入文件时,数据的第一副本写入位置是由NameNde确定,其他副本的写入位置由DataNde确定A、正确B、错误答案B解析HDFS是一个文件系统,用于存储文件,HDFS的Client写入文件时,数据的第一副本写入位置是由DataNde确定,其他副本的写入位置由NameNde确定
60.HDFS名称节点会定期做检查数据块的副本数量,一旦发现某个数据块的副本数量小于冗余因子,就会启动数据冗余复制,生成新的副本A、正确B、错误答案A解析HDFS名称节点会定期做检查数据块的副本数量,一旦发现某个数据块的副本数量小于冗余因子,就会启动数据冗余复制,生成新的副本
61.在HDFSNameNde中FsImage中并没有记录具体的记录块在哪些数据节点上存储的,是通过数据节点和名称节点在运行时不断通过沟通而实时维护这些信息的,而这些信息都是存储到内存单中去了、正确AB、错误答案A解析在HDFSNameNde中Fs Image中并没有记录具体的记录块在哪些数据节点上存储的,是通过数据节点和名称节点在运行时不断通过沟通而实时维护这些信息的,而这些信息都是存储到内存单中去了
62.spark的nyarncI ient模式启动命令为spark-submit-masteryarnCI ient或spark-sheI I—masteryarn-cI i ent、正确AB、错误答案A解析spark的nyarncI ient模式启动命令为spark-submit--masteryarnCI ient或spark-sheI I-masteryarn-cI i ent
63.Resurcemanager采用高可用方案,当Act iveresurcemanager发现故障时只能通过内置的zkeeper来启动standby的resurcemanager,将其状态切换为act iveoB、错误答案B解析发现故障不是只能通过zkeeper
64.fl ink是一个批处理和流处理结合的统一计算框架其核心是一个数据分发以及并行计算的流数据处理引擎、正确AB、错误答案A解析f1ink是一个批处理和流处理结合的统一计算框架其核心是一个数据分发以及并行计算的流数据处理引擎
65.在Streaming中,消息可靠性级别中精确一次是通过ACK机制来实现的、正确AB、错误答案B解析消息可靠性最多一次最少一次Ack机制精确一次Trident
66.HBase对于空NULL的列,不需要占用存储空间A、正确B、错误答案A解析HBase具有稀疏性,对于为空nu I I的列,并不占用存储空间
67.HDFS的命名空间包含目录文件和块B、错误答案A解析HDFS的命名空间包含目录文件和块
68.HBase系统适合进行多表联合查询以及复杂性读写操作A、正确B、错误答案:B解析HBase系统不适合进行多表联合查询以及复杂性读写操作
69.SparknYARN模式下,没有NdeManager的节点不能启动executr执行task、正确AB、错误答案:A解析:NdeManager是YARN中单个节点的代理,SparknYARN模式下,ResurceMa nager收到请求后,在集群中选择一个NdeManager,为该应用程序分配第一个C ntai ner,因而没有NdeManager的节点不能启动executr执行task
70.Fl ink采用checkpint机制保障应用程序运行中的容错性A、正确B、错误答案A解析Fl ink是一个框架和分布式处理引擎,Fl ink的checkpint机制是其可靠性的基石当一个任务在运行过程中出现故障时,可以根据checkpint的信息恢复到故障之前的某一状态,然后从该状态恢复任务的运行
71.hadp的HDFS文件格式化命令为hadpnamende-f rmatOA、正确B、错误答案A解析hadp的HDFS文件格式化命令为hadpnamende-f rmatO
72.Mapreduce过程中,默认情况下,一个分片就是一个块,也是一个maptask、正确AB、错误答案A解析Mapreduce过程中,默认情况下,一个分片就是一^^块,Mapreduce为每一个分片构建一个单独的maptask,并由该任务来运行用户自定义的map方法,从而处理分片中的每一条记录
73.使用de I ete命令将HBase中的一张表进行删除操作A、正确B、错误答案B解析先要屏蔽该表,才能对该表进行删除,第一步disable“表名”,第二步drp“表名”
74.Yarn-c Ii ent和Yarn-c Iuster主要区别是App Iicat i nMaster进程的区别.A、正确B、错误答案A解析Yarn-c Iient和Yarn-c Iuster主要区是App Ii cati nMaster进程的区别.
75.在Mapreduce编程中,代码不仅要描述做什么,还要描述具体怎么做、正确AB、错误答案:B解析MapReduce是一个分布式运算程序的编程框架,是一种编程方法,抽象理论;MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadp集群上
76.Spark任务的每个stage可划分为jb,划分的标记是shuffleA、正确B、错误答案B解析Spark是专为大规模数据处理而设计的快速通用的计算引擎在Spark运行过程中,每个jb可以划分为更小的stageshuffle是划分stage的标识,同时影响Spark的执行速度
77.大数据的4V特点是VI ume(数据量大)Velcity(处理速度快)Variety(多样性)、Value(价值性)A、正确B、错误答案A解析大数据的4V特点是VI ume(数据量大)、Velcity(处理速度快)、Vari ety(多样性)Value(价值性)
78.Yarn可以作为Spark的资源调度框架Av正确B、错误答案A解析Yarn可以作为Spark的资源调度框架
79.Hadp框架是用Java实现的,所以MapReduce应用程序则一定要用Java写A、正确B、错误答案B解析Hadp可以通过HadpStreaming的方式调用其他编程语言实现MapReduce,例如C++,Pythn等
80.MapReduce的i nputspIit一定是一个b I ckoAx正确B、错误答案B解析MapReduce的inputspl it默认是一个blck一个spI it要大于或者等于一个整数的Bick
81.HBase是一套高性能的分布式数据集群,必须在大型机或者高性能的服务器上进行搭建Ax正确B、错误答案A解析HBase是一个高可靠性、高性能(快)、面向列、可伸缩的分布式数据库系统,利用HBASE技术可在廉价PCServer上搭建起大规模结构化和非结构化数据存储集群解析A垃圾回收程序是一般是在堆上分配空间不够的时候会自己进行一次GC(垃圾收集),程序员不需要也不能主动释放内存BJava的内存释放由垃圾回收程序来进行释放C在Java里,内存的释放由垃圾回收程序进行管理,程序员不能直接进行释放D程序员可以调用System.gc()运行垃圾回收器,但是不能指定时间
32.Hadp集群中存在的最主要瓶颈是、CPUAB、网络C、磁盘10D、内存答案C解析面对大数据,读取数据需要经过I,这里可以把I理解为水的管道管道越大越强,我们对于T级的数据读取就越快所以I的好坏,直接影响了集群对于数据的处理
33.下面与Zkeepe类似的框架是哪一个?Av PrtbufB、JavaC、KafkaD、Chubby答案D解析顾名思义zkeeper就是动物园管理员,他是用来管hadp(大象)、Hive(蜜蜂)、Pig(小猪)的管理员,Zkeeper:是一个分布式的、开源的程序协调服务,是hadp项目下的一个子项目他提供的主要功能包括配置管理名字服务、分布式锁、集群管理APrtcIBuffers是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化B面向对象的编程语言;CKaf ka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写D Chubby是一个面向松耦合分布式系统的锁服务,通常用于为一个由大量小型计算机构成的松耦合分布式系统提供高可用的锁服务一个分布式锁服务的目的是允许他的客户端进程同步彼此的操作,并对当前所处环境的基本状态信息达成一致
34.以下哪个部分不是一篇数据分析报告必须有的()As标题B、正文C、结论与建议D、附录答案D解析附录不是一篇数据分析报告必须有的
35.以下关于Zkeeper的Leader节点在收到数据变更请求后的读写流程说法正确的是?A、仅写入内存B、同时写入磁盘和内存C、先写入内存再写入磁盘D、先写磁盘再写内存答案D解析Zkeeper的Leader节点在收到数据变更请求后的读写流程是先写磁盘再写内存
36.在fus in Insigh产品中,关于kafka的tpic,以下描述不正确的是?A、tpic的part it in数量可以创建时配置B、每个tpic只能被分成一个partit in区C、每条发布到kafka的消息都有一个类别,这个类别被称为tpic,也可以理解为一个存储消息的队列D、每个part it in在存储层面对应一个I g文件,I g文件中记录了所有的消息数据答案:B解析Kafka中Tpic被分成多个Part it in分区tpic是一个逻辑概念,Parti tin是最小的存储单元,掌握着一个Tpic的部分数据每个Part it in都是一个单独的1g文件,每条记录都以追加的形式写入
37.HBase表中每个cel I的多版本是通过表示的Ax timestampB、rwkeyC、blckidD、cel Iid答案A解析HBase通过以下几个要素来定位一个cel I表table,行rwkey,列族cIumnfami Iy,列标识cIumnquaI if ier,时间戳timestamp每个Cel I可能有多个版本,它们之间用时间戳TimeStamp区分
38.FusininsightHD中Lader从SFTP服务器导入文件时不需要做编码转换和数据转换且速度最快的文件类型是以下哪项?Ax graph-f iIeB、b i nary-f iIeC\text-f iIeD、sequence-f iIe答案B解析binary-f iIe是FusininsightHD中Lader从SFTP服务器导入文件时不需要做编码转换和数据转换且速度最快的文件类型
39.下面与HDFS类似的框架是?A、NTFSB、FAT32C、GFSD、EXT3答案C解析HDF HarmnySDri verFundatin驱动框架,为驱动开发者提供驱动框架能力,包括驱动加载、驱动服务管理和驱动消息机制
40.关于Dataset,下列说法不正确的是?A、Dataset不需要反序列化就可执行大部分操作B、Dataset是一个由特定域的对象组成的强类型集合C、Dataset与RDD高度类似〉性能比RDD好D、Dataset执行srt,f iIter,shuffle登操作需要进行反序列化答案D解析Dataset执行srt,fi Iter,shuffle登操作不需要进行反序列化Java序列化就是指把Java对象转换为字节序列的过程Java反序列化就是指把字节序列恢复为Java对象的过程序列化最重要的作用在传递和保存对象时.保证对象的完整性和可传递性对象转换为有序字节流,以便在网络上传输或者保存在本地文件中反序列化的最重要的作用根据字节流中保存的对象状态及描述信息,通过反序列化重建对象
41.Zkeeper在分布式应用中主要的作用不包括以下哪些选项?As选举Master节点B、保证各节点上数据的C、分配集群资源D、存储及群中答案C解析资源分配是Spark任务中需要深入理解
42.Hive是以()技术为基础的数据仓库A、HDFSB、MAPREDUCEC、HADPD、HBASE答案C解析Hive是基于Hadp的一个数据仓库工具,用来进行数据提取、转化加载,这是一种可以存储、查询和分析存储在Hadp中的大规模数据的机制A:Hadp分布式文件系统HDFS是指被设计成适合运行在通用硬件上的分布式文件系统B:MapReduce是一种编程模型,用于大规模数据集的并行运算D:HBase是一个分布式的、面向列的开源数据库
43.关于fus i nIns ightHDStreami ng的Superv isr描述正确的是A、Superv isr是在Tplgy中接受数据然后执行处理的组件B、Supervi sr负责接受Nimbus分配的任务,启动和停止属于自己管理的Wrker进程C、Superv isr负责资源分配和任务调度D\superv isr是运行具体处理逻辑的过程答案:B解析Bit是在Tplgy中接受数据然后执行处理的组件;Nimbus:负责资源分配和任务调度;Supervi sr:负责接收Nimbus分配的任务
44.在Spark生态组件中,哪个产品可用于复杂的批量数据处理A、SparkCreB、SparkSqIC\SparkStreamingD、ML Iib答案A解析
1.在Spark生态组件中,sparkcre可用于复杂的批量数据处理
2.SparkStreaming是一个对实时数据流进行高吞吐高容错的流式处理系统
3.MLI ib是Spark实现一些常见的机器学习算法和实用程序
4.SparkSQL是基于sparkcre提供的一个用来处理结构化数据的模块库
45.关于hive与传统据仓库的对比,以下描述错误的是?A、数据存储独位于数据存储之外,从而解耦合元数据和数据,灵活性高,而传统数据,灵活性低B、Hive基于HDFS存储理论上存储量可无限扩展,而传统数据仓库存储量会有上限C、由于hive的数据存储在HDFS中,所以可以保证数据的高容错,高可靠D、由于Hive基于大数据平台,所以查询效率比传统数据仓库快答案D解析Hive在加载数据的过程中不会对数据进行任何处理,甚至不会对数据进行扫描,因此也没有对数据中的某些Key建立索引Hive要访问数据中满足条件的特定值时,需要暴力扫描整个数据,因此访问延迟较高
46.关于HBase与传统的关系数据库的区别说法错误的是A、数据类型关系数据库采用关系模型,具有丰富的数据类型和存储方式,HB ase则采用了更加简单的数据模型,它把数据存储为未经解释的字符串B、数据操作关系数据库中包含了丰富的操作,其中会涉及复杂的多表连接HBase则不存在复杂的表与表之间的关系,只有简单的插入、查询删除清空等,因为HBase在设计上就避免了复杂的表和表之间的关系C、存储模式关系数据库是基于行模式存储的HBase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的D、数据维护在关系数据库中执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧有的版本仍然保留在HBase中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在D、实时在线数答案D解析Hive不适用于实时在线数单选由于hive主要用于数据分析,因此延时比较高,不适用于实时场景,适用于离线大数据分析
4.Hadp平台中HBase的Regin是由哪个服务进程来管理?A、HMasterB、DataNdeC、ReginServerD、Zkeeper答案:C解析Hadp平台中HBase的Regi n是由ReginServer管理
5.Hadp组件在企业应用中,能用于大数据集实时查询的产品有A、H iveB、PigC MahutxD、Hbase答案D解析Hadp组件在企业应用中,能用于大数据集实时查询的产品有Hbase
6.下列选项中无法通过大数据技术实现的是?()、商业模式发现AB、信用评估C、商品推荐答案D解析数据维护在关系数据库中,更新操作会用最新的当前值去替换记录中的原来的旧值,旧值被覆盖够就不会存在,而在HBase中执行更新操作时,不糊并不会删除数据旧的版本,而是生成一个新的版本,旧的有的版本保留
47.以下哪类数据不属于半结构化数据?A、HTMLB、XMLC、二维表D、JSN答案:C解析二维表,数据结构,是一个关系名,意思是指关系模型中,数据结构的表示方法
48.在Hadp生态组件中,哪个产品可用于复杂的批量数据处理
0、MapReducev Hi veAB、ImpaI aC\StrmD\Mahut答案A解析在Hadp生态组件中,MapReducev H ive可用于复杂的批量数据处理
49.以下关于Hi veSQL基本操作描述正确的是A、创建外部表必须要指定Lcat i n信息B、创建外部表使用external关键字,创建普通表需要指定internal关键字C、加载数据到Hi ve时源数据必须是HDFS的一个路径D、创建表时可以指定列分割符答案D解析建立外部表可以不指定Lcatin,会在默认在/hive/warehuse/数据库名称/表名,建立目录创建内部表时不需要关键字加载数据到Hive时源数据不一定是HDFS的一个路径
50.HDFS的副本放置策略中,同一机架不同的服务器之间的距离是()A、3B、2C、1D、4答案B解析HDFS的副本放置策略中,同一机架不同的服务器之间的距离是
251.关于HBaseRegin的定位说法错误的是、元数据表,又名.META.表,存储了Regin和Regin服务器的映射关系当HBAase表很大时,.META.表也会被分裂成多个Reg inB、为了加快访问速度,.META.表的全部Regin都会被保存在内存中C、根数据表,又名-RT-表,记录所有元数据的具体位置-RT-表只有唯一一个Reg in,名字是在程序中被写死的Zkeeper文件记录了-RT-表的位置D、为了加速寻址,客户端会缓存位置信息,寻址过程客户端只需要询问Zkeepe r服务器,不需要连接Master服务器,由于数据放在内存中,因此不存在缓存失效问题答案D解析客户端访问数据时的“三级寻址”-为了加速寻址,客户端会缓存位置信息,同时,需要解决缓存失效问题寻址过程客户端只需要询问Zkeeper服务器,不需要•连接Master服务器
52.HBasett靠存储底层数据A、HDFSB、HadpC、MemryD、MapReduce答案:A解析首先HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式.
53.关于HBase下面说法正确的是、HBase一个稀疏、多维度排序的映射表,这张表的索引是行键列A®B、每个值是一个未经解释的字符串,没有数据类型,程序员要自己去对它进C、用户在表中存储数据,每一行都有一个可排序的行键和任意多的列D、以上说法都正确答案D解析Hbase是HadpDatabase的简称,Hbase是分布式面向列的开源数据库准确是面向列族HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为H base提供高性能的计算能力,Zkeeper为Hbaset提供稳定服务和Fai Iver机制,因为我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案Hbase的特点1,海量存储2,列式存储3,极易扩张4,高并发5,稀疏(主要针对Hbase的灵活性)
54.下列不可作为java语言标识符的是、a1AB、1C、1D、11答案D解析Java标识符由数字,字母和下划线(_),美元符号($)或人民币符号()组成在Java中是区分大小写的,而且还要求首位不能是数字¥
55.从数据表中查找记录用以下哪一项A UPDATEB、FINDC、SELECTD CREATE答案C解析SELECT用于查找记录
56.LSM更能保证哪种操作的性能?、读AB\写C、随机读D、合并答案B解析B+索引树和1g型(append)文件操作(数据库WAL日志)是数据读写的两个极端B+树读效率高而写效率差;1g型文件操作写效率高而读效率差;因此要在排序和1g型文件操作之间做个折中,于是就引入了lg-structedmergetr ee模型,通过名称可以看出LSM既有日志型的文件操作,提升写效率,又在每个sstable中排序,保证了查询效率
57.查看kafkaMTpic的part itin详细信息时,使用如下那个命令A、bi n/kakfa-tp icssh—createB、b in/kakfa-tp icssh—de IeteC\b in/kakfa-tp ics.sh-1i stD、b in/kakfa-tp ics.sh—descr ibe答案D解析使用b in/kakfa-tp icssh—descr ibe查看kafkaMTp ic的part itin详细信息
58.关于HBaseshel I命令,哪个命令是使表无效()、a IertAB、d isab IeC、drpD、以上都不是答案B解析
1.alter:修改列族模式2disable使表无效
3.drp删除表
59.Kafka集群中,Kafka服务端部署的角色是A、PrducerB、CnsumerC、ZKeeperD、Brker答案:D解析一台kafka服务器节点就是一个brker,负责处理消息读、写请求,存储消息,在kafkacluster这一层这里,其实里面是有很多个brker一个集群由多个br ker组成prducer是向kafkabrker发消息的客户端,cnsumer是向kafkabrker取消息的客户端
60.LSM含义是?、日志结构合并树AB、二叉树C、平衡二叉树D、长平衡二叉树答案A解析LSM-Tree全称是LgStructuredMergeTree,是一种分层,有序,面向磁盘的数据结构,其核心思想是充分了利用了,磁盘批量的顺序写要远比随机写性能高出很多
61.FusininsightHD系统审计日志不可以记录下面哪些操作?A、手动清除告警B、启停服务实例C、查询历史监控D、删除服务实例答案C解析FusininsightHD系统审计日志不可以记录查询历史监控
62.关于h ive建表基本描述正确的是0A、不可再修改表名B、可再增加新列C、创建外部表需要制定external关键字D、不可再修改列名答案C解析创建外部表需要制定external关键字
63.Hbase中以下对于LSM的描述正确的是A、LSM的读操作和写操作是独立Bv LSM的读操作和写操作不是独立C、LSM并不区分读和写D、LSM中读写是同一种操作答案A解析LSM中读操作和写操作相互独立,且并不相同
64.有一段java应用程序,它的主类名是a1,那么保存它的源文件名可以是A、a
1.javaB、a
1.cI assC、a1D、都对答案A解析
1、必须以java结尾这样才能被编辑器javacexe所编辑、源文件中如2果只有一个类,文件名必须与该类名相同
3、输入命令pushd路径(此命令可将当前目录设为所希望的任一个已存在的路径)
4、输入命令e转移到e盘,然后再输入cd转移到所希望的已知路径
65.关于MapReduce框架中一个作业的reduce任务数,下列说法正确的是()A、由自定义的Partitiner来确定B、是分块总数目的一半C、可以由用户来自定义,通过JbCnf.setNumReducetTask(int)来设定一个作业中reduce的任务数目D、由MapReduce随机确定其数目答案C解析一个jb的ReduceTasks数量是通过mapreduce.jb.reduces参数设置也可以通过编程的方式,调用Jb对象的setNumReduceTasks()方法来设置目
66.以下命令组成错误的是()Av vim/etc/prf iIeB、surce/etc/prf iIeC、hadpnamende-frmatD、b in/hadpfs-cat/hadpdata/y/txt答案D解析
394、vim/etc/prf iIe虽然可以进入prf iIe文件,但是对于普通用户,无法修改;etc/prf iIe:在登录时,操作系统定制用户环境时使用的第一个文件,此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行使用命令hadpnamende-f rmat对namende进行格式化hadpfs-cat>从DFS多个part文件合并拷贝文件到本地文件系统
67.不属于HDFS优势是()“、时间快AB、超大文件C、大量小文件D、商用硬件答案A解析HDFS优势
1、海量数据存储HDFS可横向扩展,其存储的文件可以支持PB级别或更高级别的数据存储
2、高容错性数据保存多个副本,副本丢失后自动恢复可构建在廉价的机器上,实现线性扩展当集群增加新节点之后,n amende也可以感知,进行负载均衡,将数据分发和备份数据均衡到新的节点上
3、商用硬件Hadp并不需要运行在昂贵且高可靠的硬件
4、大文件存储
68.在创建对象时必须A、先声明对象,然后才能使用对象B、先声明对象,为对象分配内存空间,然后才能使用对象C、先声明对象,为对象分配内存空间,对对象初始化,然后才能使用对象D、上述说法都对答案C解析Java就是这样规定的
69.Hbase的某张表的Rwkey划分spl itkey为
9.E.a.z请问表里面有几个ReginAx6B、3C、5D、4答案:C解析Hbase的某张表的Rwkey划分spl itkey为
9.E.a.z表里面有5个Reg in
70.在Zkeeper和Yarn的协同工作中,当Act iveResurcemanager产生故障时,StandbyResurcemanager会从以下哪个目录中获取Appl icat in相关信息AxmetastreB\StatestreC、StreageD、Warehuse答案B解析在Zkeeper和Yarn的协同工作中,当Act iveResurcemanager产生故障时,StandbyResurcemanager会从Statestre目录中获取AppI icat in相关信息
71.Kafka集群在运行期间直接依赖于下面哪些组件?A、sparkB、zkeeperC、hdfsD、hbase答案B解析ZKeeper作为给分布式系统提供协调服务的工具被kafka所依赖D、运营分析答案A解析商业模式发现无法通过大数据技术实现
7.日常数据通报型报告的特点错误的是
0、进度性AB、规范性C、时效性D、全面性答案D解析日常数据通报型报告的特点有进度性,规范性,时效性https://zhuan Ian.zhihu./p/53857057日常数据通报是以定期数据分析报表为依据,反映计划执行情况,并分析影响和形成原因的一种数据分析报告这种数据分析报告一般是按日、周、月、季年等时间阶段定期进行,所以也叫定期分析报告
8.HBase依赖提供强大的计算能力A PrtbufXB、JavaC、KafkaD、Chubby答案D解析谷歌收购云计算公司CuldSimple强化云计算能力
9.以下关于Hive操作描述不正确的是A、Hive是一个建立在hadp文件系统上的数据仓库架构,可以用其对HDFS上
72.下面与Zkeepe淡似的框架是?A、PrtbufB、JavaC、KafkaD、Chubby答案D解析,ZKeeper是一个分布式服务框架,是ApacheHadp的一个子项目,主要用来解决分布式应用中经常遇到的一些数据管理问题,如统一命名服务、配置管理、集群管理、分布式锁发布/订阅等
73.HFi Ie数据格式中的KeyValue数据格式中Value部分是A、拥有复杂结构的字符串B、字符串C、二进制数据D、压缩数据答案C解析元数据是key-value类型的值,但元数据快只保存元数据的va Iue值,元数据的key值保存在第五项元数据索引块中
74.解压.tar.gz iS尾的HBase压缩包使用的L inux命令是?A、tar-zxvfB、tar-zxC\tar-sD、tar-nf答案A解析tar-zxvf
75.Flume用于收集数据,其传输的数据基本单位是?A、SplitB、BickC、EventD、Packet答案C解析Flume用于收集数据,其传输的数据基本单位是Event
76.下面哪个进程负责MapReduce任务调度A、NameNdeB、JbtrackerC、TaskTrackerD、SecndaryNameNde答案B解析Jbtracer负责MapReduce任务调度
77.HFile数据格式中的Magic字段用于A、存储随机数,防止数据损坏B、存储数据的起点C、存储数据块的起点D、指定字段的长度解析每一个HFi Ie内部包括多种不同类型的块结构,这些块结构从逻辑上来讲可归并为两类分别用于数据存储和数据索引(简称数据块和索引块)
78.LSM的读操作和写操作是独立的?、是AB、否Cv LSM并不区分读和写D、LSM中读写是同一种操作答案A解析如果我们对写性能特别敏感,我们最好怎么做?一一Appendnly所有写操作都是将数据添加到文件末尾这样做的写性能是最好的,大约等于磁盘的理论速度(200300MB/s)o〜
79.fusininsight对于管理操作,下列错误的是?A、可对服务进行启停重启B、可以添加和卸载服务C、常用服务隐藏或显示D、可查看服务的当前状态答案C解析可设置不常用的服务隐藏或显示
80.Hive中的数据类型,下面说正确的是()、TINYINTJ个字节(8位)有符号整数AB、SMALL I NT,2字节(16位)有符号整数C、INT,4个字节(32位)有符号整数D\以上都正确答案D解析
1.Hive中的数据类型分为两类基本类型和复杂类型
2.基本类型包含tinyint,smaI Ii nt,i nt,b ig int,flat,dub Ie,bIean,string,timestamp,binary
3.复杂类型array,map和structa.array数组类型,对应了Java中的集合或者数组
81.以下哪个不是HDFS的守护进程Ax SecndaryNameNdeB、NameNdeC\MrappMaster/YarnChi IdD、DataNde答案C解析namende\Secndnamende\Datande\Jbtracker\Tasktracker都是守护进程
82.以下哪个channel类型的数据不会持久化()A\Fi leChanneIB、MemryChanneIC、JDBCChanneID、HDFSChanneI答案B解析JDBCChanne I的数据类型不会持久化
83.hadp系统中YARN资源的抽象是用什么表示?A、内存B、CPUC、Cnta i nerD、磁盘空间答案C解析hadp系统中YARN资源的抽象是用Cnta iner表示
84.Spark是用以下哪种编程语言实现的()?A、CB、C++C、JAVAD\Sea Ia答案D解析Sea la是Spark的原生语言
85.关系数据库已经流行很多年,Hadp已经有了HDFS和MapReduce,关于需要H Base说法错误的是、Hadp可以很好地解决大规模数据的离线批量处理问题,但是,受限于HadpMAapReduce编程框架的高延迟数据处理机制,使得Hadp无法满足大规模数据实时处理应用的需求B、HDFS面向随机访问模式,不是批量访问模式C、传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题(分库分表也不能很好解决)D、传统关系数据库在数据结构变化时一般需要停机维护;空列浪费存储空间解析Hadp可以很少地解决大规模数据的离线批量处理问题,但是,受限于hadpMapReduce编程框架的高延迟数据处理机制,使得hadp无法满足大规模数据实施处理应用的需求HDFS面向批量访问模式,不是随机访问模式传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题(分库分表也不能很好的解决)传统关系数据库在数据结构变化时一般需要停机维护,空列浪费存储空间因此,业界出现了一类面向半结构化数据存储和处理的高扩展、低写入查询延迟的系统,例如,键值数据库、文档数据库和列族数据库(如B igTable和HDase)Hbase已经成功应用于互联网服务领域和传统行业的众多在线模式数据分析处理系统中
86.HBase表中每个cel I的多版本是通过表示的?A、timestampB\rwkeyC、blckidD、cel Iid答案A解析:每个Cel I可能有多个版本,它们之间用时间戳(TimeStamp)区分
87.为了保障流应用的快照存储的可靠性,快照主要存储在哪里?Av jbmanager的内存中B、可靠性高的单机数据库中C、本地文件系统中D\hdfs中解析为了保障流应用的快照存储的可靠性,快照主要存储在hdfs中
88.关于HBase的HLg工作原理说法错误的是、分布式环境必须要考虑系统出错HBase采用HLg保证系统恢复AB、HBase系统为每个Regin服务器配置了一个HLg文件,它是一种预写式日志WriteAheadLgC、用户更新数据不需要先写入日志后,才能写入MemStre缓存,并且,直到Me mStre缓存内容对应的日志已经写入磁盘,该缓存内容才能被刷写到磁盘D、发生故障后,系统会根据每条日志记录所属的Regin对象对HLg数据进行拆分,分别放到相应Regin对象的目录下,然后,再将失效的Reg in重新分配到可用的Reg in服务器中,并把与该Reg in对象相关的HLg日志记录也发送给相应的Reg in服务器答案C解析Reg in服务器领取到分配给自己的Reg in对象以及与之相关的HLg日志记录以后,会重新做一遍日志记录中的各种操作,把日志记录中的数据写入到Mem Stre缓存中,然后,刷新到磁盘的St reFile文件中,完成数据恢复
89.采用Flume传输数据过程中,为了防止因FIume进程重启而丢失数据,推荐使用以下哪种channe I类型?Av MemryChanneIsB、Fi IeChanneIC、JDBCChanneID、HDFSChanneI解析采用Flume传输数据过程中,为了防止因Flume进程重启而丢失数据,推荐使用Fi I eChannel
90.加载数据到Hive表,哪种方式不正确?、直接将本地路径的文件lad到Hive表中AB、将HDFS上的文件lad到Hive表中C、Hive支持Insertint单条记录的方法,所以可以直接在命令行插入单条记录D、将其他表的结果集insertint到Hive表答案c解析Hive不支持Insert int单条记录的方法
91.关于HadpMapReduce分片spit概念,下列说法不正确的是As Hadp为每个spI it创建—个Map任务B、spl it的多少决定了Map任务的数目C、大多数情况下,理想的分片大小是一个HDFS块对应一个spitD、spl it是一个物理概念答案D解析spl it不是一个物理概念,是一个概念上的切片,blck是物理概念
92.以下选项中,不属于信息时代的定律的是
0、吉尔德定律AB、摩尔定律C、麦特卡尔夫定律D、达律多定律解析吉尔德定律Gi Ider飞Law又称为胜利者浪费定律,由乔治吉尔德提出,最•为成功的商业运作模式是价格最低的资源将会被尽可能的消耗,以此来保存最昂贵的资源.吉尔德定律Gi IdersLaw被描述为在未来25年,主干网的带宽每6个月增长一倍,12个月增长两倍.其增长速度是摩尔定律预测的CPU增长速度的3倍,并预言将来上网会免费.
93.Javaapp Iicat in中的主类需包含ma in方法,main方法的返回类型是什么?A、i ntB、flatC、dub IeD、v id答案D解析vid,即不返回对象,main方法是程序执行的入口,ma in方法也不需要初始化对象就能执行
94.关于Hadp生态系统软件说法错误的是、HDFS是分布式文件系统AB、YARN是资源管理和调度器C、Tez是运行在YARN之上的下一代Hadp查询处理框架D、Hive是Hadp上的数据仓库,为了提高效率,可以越过HDFS直接管理数据的存储答案D解析hive的表使用的默认存储是hdfs的文件系统,相当于表的数据是存储在hdfs文件系统中的因此无法越过HDFS直接管理数据的存储
95.以下哪个方法用于定义线程的执行体?A、start0B、initrun C^D\synchrn ized答案C解析:通过继承Thread类来创建并启动线程的步骤如下:定义Thread类的子类,并重写该类的run方法,该run方法将作为线程执行体创建Thread子类的实例,即创建了线程对象调用线程对象的start方法来启动该线程
96.哪个命令是删除文件的?A、dfs-cI earB、dfs-lsC、dfs-rmD、dfs-deI答案C解析dfs-rm命令是用来删除文件的dfs-clear没找到dfs-l s没找到dfs-de I没找到
97.大数据的核心价值是
0、数据交易AB、数据分析C、数据融合D、数据处理B、H ive依赖于MapReduce处理数据C、Hive的加载数据时候,可以用leal进行修饰,表示从某个本地目录下加载数据D、Hive一般可以用于实时的查询分析答案:D解析Hi ve不可以用于实时的查询分析
10.以下关于继承的叙述正确的是、在Java中类只允许单一继承AB、在Java中一个类只能实现一个接nC、在Java中一个类不能同时继承一1s类和实现一个接口D、在Java中接口只允许单一继承答案A解析继承分为单继承和多继承两种形式单继承允许一个类可以有多个子类,但只能有一个父类;多继承则允许一个类不仅可以有多个子类,还可以有多个父类但需要注意一点,Java只支持单继承,但可以通过接口实现多继承的功能一个类可以同时继承一个类和实现一个接口
11.关于HIVE的描述不正确的?A、Hive最佳使用景是大数据的批处理作业B、Hive可以实现大规模数据集上实现低延迟快速的查询C、Hive构建在基于静态批处理的Hadp之上,Hadp通常有较高的延迟并且在作业提交和调度的时候需要大量开销答案B解析大数据的核心价值是数据分析
98.HDFS中的数据块blck默认保存几份?0As3份B、2份C、1份D、不确定答案A解析HDFS中的数据块blck默认保存3份,每份默认为128M
99.Kafka集群中,Kafka服务端的角色是?A、BrkerB、CnsumerC\ZkeeperD、Prducer答案A解析:Kafka集群中集afka服务端的角色是BrkerCnsumer就是负责从Kafka集群中消费消息数据的应用程序Zkeeper I是一个开源的分布式的,为分布式框架提供协调服务的Apache项目Prducer就是负责向Kafka集群中写入消息数据的应用程序
100.万维网之父是A、彼得德鲁克•B、舍恩伯格C、蒂姆伯纳斯-李・D、斯科特布朗・答案C解析万维网之父是蒂姆伯纳斯李••
101.关于HDFS集群中的DataNde的描述不正确的是?、一个DataNde上存储的所有数据块可以有相同的AB、存储客户端上传的数据的数据块C、DataNde之间可以互相通信D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:A解析出于安全性和高可用性考虑,并不会把一个blck的多个副本放在同一个datande上
102.下列关于HadpAPI的说法错误的是OA、Hadp的API只适用于HDFS文件系统B、Cnf iguratin类的默认实例化方法是以HDFS系统的资源配置为基础的C、FiI eStatus对象存储文件和目录的元数据D、FSData InputStream是java,i.Data InputStream的子类答案A解析Hadp的API是通用的,既可以适用于HDFS,又可以适用于Hbase、Mapre duce等
103.下列数据结构具有记忆功能的是?A、队列B、循环队列C、栈D、顺序表答案C解析具有记忆功能的是栈
104.FusininsightHD系统中,下面哪个方法不能查看到Lader作业执行的结果A、通过Laderlll界面查看B、通过YARN任务管理C、Ndemanager查看D、通过Manager的查看答案C解析FusininsightHD系统中,使用Ndemanager查看不能查看到Lader作业执行的结果
105.Hbase中的Reg in是由哪个服务进程来管理的?A、HreginserverB、ZkeeperC、MasterD、Datande答案A解析Hbase中的Regi n是由Hregi nserver来管理的
106.如下哪项不是ZKeeper的关键特性、最终一致性AB、延时性C、可靠性D、等待无关性答案:B解析ZKeeper的关键特性包括最终一致性,可靠性,等待无关性
107.使用Hbase客户端批量写入10条数据,某个Hreginserver节点上包含该表的2个Reg in,分别为A和B,10条数据中有6条属于A.4条属于B,请问写入这10条数据需要向该HreginServer发送几次RPC请求?A、10B、6C、2D、1答案D解析使用Hbase客户端批量写入10条数据,某个Hreginserver节点上包含该表的2个Regi n,分别为A和B,10条数据中有6条属于A.4条属于B,写入这10条数据需要向该HreginServer发送1次RPC请求
108.以下哪个不属于Hadp中Mapreduce组件的特点?、高容错AB、良好的扩展性C、实时计算D、易于编程答案C解析高度抽象的编程思想,良好的扩展性,高容错性,适用于并行计算和离线计算
109.关于HBase和BigTable说法错误的是、HBase是一个高可靠高性能、面向列可伸缩的分布式数据库,是谷歌Bi gTableA的开源实现,主要用来存储非结构化和半结构化的松散数据B、BigTable和HBase均采用Chubby提供协同服务管理C、BigTable和HBase都是一个分布式存储系统D、HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表答案B解析BigTable是一个分布式存储系统,它利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据,使用谷歌分布式文件系统GFS作为底层数据存储,采用Chubby提供协同服务管理HadpDatabase,是一个高可靠性高性能面向列、可伸缩、实时读写的分布式数据库利用HadpHDFS作为其文件存储系统,利用Zkeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据
110.使用JAVAAPI进行HBase表数据添加操作,以下命令输写正确的是0c、HTab I e.add newPut Bytes.tBytes rw;AB、HTab Ie.i nsertnewPutBytes.tBytes rwC、HTabIe.putfnewPutBytes.tBytesrw;D、HTabIe.updatefnewPut Bytes.tBytesrw答案C解析即table,get table.scan;
111.在Java中,一个类可同时定义许多同名的方法,这些方法的形式参数个数、类型或顺序各不相同,传回的值也可以不相同这种面向对象程序的特性称为A、隐藏B、覆盖C、重载D、Java不支持此特性答案C解析一个类可以定义多个同名的方法,只要这些方法的参数列表不完全相同,这称为方法重载
112.HBase依赖技术框架提供消息通信机制A、ZkeeperB、ChubbyC、RPCD、Scket答案A解析“hbase依赖“Zkeeper”提供消息通信机制
113.用定期数据分析报表作为依据的反映计划执行情况的数据分析报告是、专题分析报告AB、综合分析报告C、日常数据通报D\实时运营报告答案C解析用定期数据分析报表作为依据的反映计划执行情况的数据分析报告是日常数据通报
114.LSM结构的数据首先存储在
0、硬盘上AB\内存中C、磁盘阵列中D、闪存中答案:B解析LSM树的核心特点是利用顺序写来提高写性能,但因为分层此处分层是指的分为内存和文件两部分的设计会稍微降低读性能,但是通过牺牲小部分读性能换来高性能写,使得LSM树成为非常流行的存储结构
115.哪一项不属于Hi ve的流控特性A、已经建立的总连接数阈值控制B、某个特定用户已经建立的连接数阈值控制C、每个用户已经建立的连接数阈值控制D、单位时间内所建立的连接数阈值控制答案B解析某个特定用户已经建立的连接数阈值控制不属于Hive的流控特性
116.下列关于F inkbarrier描述错误的是、一个barrier将本周期快照的数据与下一个周期快照的数据分隔开来AB、barrier是F1ink快照的核心C\在插入barr ier的时候,会暂时阻断数据流D、barrier周期性插入到数据流中,并作为数海流的一部分随之流动答案C解析在插入barr ier的时候,不会暂时阻断数据流
117.如果要给队列QueueA设置容量为30%,应该设置哪个参数()A、yarn.scheduI er.capacity.rt.QueueA.mi nimum-user-1imit-percentB、yarn.scheduI er.capacity,rt.QueueD.user-l imit-factrC\yarn,scheduI er.capac ity.rt.QueueA.capac ityD\yarn.scheduI er.capacity.rt.QueueA.state答案C解析在YARN中应设置为yarn,schedu I er.capacity,rt.QueueA.capac ity
118.HadptnryarnscheduIercapacity,rt.Queueaf inim.m-user-1imit-percent设置为50,下面说法错误的是?、一个用户提交任务,可以使用QueueA的100%的资源AB、如果QueueA中已经有2个用户的任务运行,这时第3个用户提交的任务需要等待释放资源C、QueueA中必须保障每个用户至少得到50%的资源D、QueueA中的每个用户最多只能获得50%的资源答案D解析如果有资源需求,每个队列都会对分配给用户的资源百分比实施限制用户限制可以在最小值和最大值之间变化前者(最小值)设置为该属性值,后者最大值取决于已提交应用程序的用户数例如,假设此属性的值为25如果两个用户已将应用程序提交到队列,用户不可以使用超过50%的队列资源如果第三位用户提交了一个应用程序,用户都不能使用超过33%的队列资源如果有4个或更多用户,用户都不能使用超过25%的队列资源值100表示未施加用户限制默认值为100值指定为整数
119.下列论据中,能够支撑“大数据无所不能”的观点的是A、互联网金融打破了传统的观念和行为B、大数据存在泡沫C、大数据具有非常高的成本D、个人隐私泄露与信息安全担忧答案D解析“个人隐私泄露与信息安全担忧”能够支撑“大数据无所不能”的观点
120.关于MapReduceShuff Ie过程合并bine操作,两个健值对<a,和V匕,1>经过合并操作结果为、<a,2>AB、<a,<11»,C、<a,a,2>D、<a a,<1,1»答案A解析关于MapReduceShuff Ie过程合并bine操作,两个健值对<a,1>和<a,1>经过合并操作结果为<a”,2>归并的结果是o
121.KafkaClusterMi rrri ng工具可以实现以下哪些功能A、Kafka数据同步方案B、Kafka单集群内数据备份C、Kafka单集群内数据恢复D、以上全不正确答案A解析可使用Mi rrrMaker工具创建从源Kafka群集(源群集)到目标Kafka群集(目标群集)的镜像,从而实现数据同步
122.HBase是分布式列式存储系统,记录按什么集中存放、列族AB、歹IJC、行D、不确定答案A解析HBase是一个分布式列式存储系统,记录按列簇集中存放,通过主键(rw,ke y)和主键的range来检索数据
123.HFile数据格式中的Meta Index字段用于
0、Meta块的长度AB、Meta块的结束点C、Meta块数据内容D、Meta块的起始点答案DD、Hive查询操作过程严格遵循HadpMapreduce的作用执行模型.Hive将用户的HveQL语句通过解释器转换为MapreduceHadp集群上答案B解析Hive不可以实现大规模数据集上实现低延迟快速的查询Hive构建在基于静态批处理的Hadp之上,Hadp通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销因此,hive并不能够在大规模数据集上实现低延迟快速的查询
12.MapReduce的Shuffle过程以下中哪个操作是最后做的?、排序AB、合并C、分区D、溢写答案B解析map阶段shuffle过程就是将map结果进行分区排序合并
13.以下哪个方法用于定义线程的执行体?A、start B、initC、run D、synchrn ized0答案c解析run方法是用来定义这个线程在启动的时候需要做什么,但是,直接执行run方法那就不是线程,必须使用start启动,那样才是线程线程是进解析HFile是参照谷歌的SSTable存储格式进行设计的全部的数据记录都是通过它来完毕持久化,其内部主要探用分块的方式进行存储
124.以下哪个操作是hive不支持的?、表增加列AB、表删除列C、表修改列D、修改表名答案B解析h ive不支持表删除列
125.Fusininsight产品中,关乎Kafka说法不正确的是、Kafka强依赖ZkeeperAB、Kafka的服务端可以产生消息C、Kafka的部署的实例个数不得小于2D、Cnsumer作为Kafka的客户端角色专门进行消息的消费答案B解析Kafka的服务端不可以产生消息
126.Hadp平台中启用YARN组件的日志聚集功能,需要配置哪个参数A、yarn,ndemanager.Ical-d irsB、yarn,ndemanager.Ig-d irsC、yarn,acI.enab IeD、yarn.Ig-aggregatin-enabIe答案D解析Hadp平台中启用YARN组件的日志聚集功能,需要配置yarn.1g-aggrega tin-enab Ie参数
127.下列国家的大数据发展行动中,集中体现“重视基础首都先行”的国家是O、美国AB、日本C、中国D、韩国答案D解析国家的大数据发展行动中,集中体现“重视基础首都先行”的国家是韩国
128.关于Kafka的基本概念描述错误的是A、Kafka集群包含一个或多个服务实例,这些服务实例被称为BrkerB、每条发布到Kafka集群的消息都有一个类别,这个类别被称为TpicC、每个Cnsumer属于多个的CnsumerGrupD、Kafka将Tp ic分成一个或者多个Part itin,每个Part itin在物理上对应—个文件夹,该文件夹下存储这个Partitin的所有消息答案C解析每个Cnsumer进程都会划归到一^逻辑的CnsumerGrup中
129.以下关于Zkeeper关键特性中的原子性说法正确的是?A、客户端发送的更新会按照他们被发送的顺序进行应用B、更新只能全部完成或失败,不会部分完成C、一条消息被一个server接收,将被所有server接收D、集群中无论哪台服务器,对外示均是同一视图答案B解析数据更新原子性一次数据更新要么成功,要么失败
130.SQL语言中,删除一个表中所有数据,但保留表结构的命令是()o、DELETEAB、DRPC、DRPD、REMRE答案:A解析
2、truncate和delete只删除数据不删除表的结构(定义)DeleteFrmCustmer;Drptab IeCustmer;drptab Ie表名称;truncatetab Ie表名称;deI etefrm表名称where列名称二值
131.Hbase元数据MetaReg in/路由信息保存在哪里?A\ZkeeperB、Meta表C、HMasterD、Rt表答案B解析Hbase元数据MetaRegi n/路由信息保存在Meta表中132,在数据安全及处理效率方面,不适宜大数据分析的软件是()A、SASB、StataC\MatLabD、SPSS答案D解析在数据安全及处理效率方面,不适宜大数据分析的软件是SPSSSAS是全球最大的私营软件公司之一,是由美国北卡罗来纳州立大学1966年开发的统计分析软件SPSS是由SPSS公司推出的软件“统计产品与服务解决方案”软件Stata是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件MATLAB是美国MathWrks公司出品的商业数学软件,用于数据分析无线通信深度学习、图像处理与计算机视觉、信号处理、量化金融与风险管理机器人,控制系统等领域
133.硬件故障被认为是常态,为了解决这个问题.HDFS设计了副本机制默认情况下HDFS会存份?A、3B、5C、2D、4答案A解析默认情况下HDFS会存3份
134.在HBaseShel I操作中,可以使用下面哪个命令对数据表进行行数统计A、seIectcunt0frmusersB、sumusersC cuntusersxD、truncateusers答案C解析HBaseusers属性唯一,通过currt语句,可统计有多少行数
135.如果需要对HBase表中的数据进行列表查看,可以使用()命令进行操作A、cuntB、scanC、putD、get答案:B解析get命令是用来获取Hbase表中某行的数据
136.在Fusininsight产品中,关于创建Kafka的Tpic,以下哪些描述是正确的、在创建Kafka的Tpic时,必须设置Partit in个数AB、在创建Kafka的tpic时,必须设置Partit in副本个数C、设置多副本可以增强Kafka服务的容灾能力D、以上全都正确答案C解析kafka的partit in可以在创建时候指定,也可以alter(kafka-tp ic.sh里面的参数),但是,这个修改只能增加partitin数目,并不能减少
137.关于HBase用户读写数据过程说法错误的是、用户写入数据时,被分配到相应Reg in服务器去执行AB、用户数据首先被写入到MemStre和Hlg中C只有当操作写入Hlg之后,mit调用才会将其返回给客户端D、当用户读取数据时,先去磁盘上面的StreFile中寻找答案D解析数据读写的过程-用户写入数据时,被分配到相应Reg in服务器去执行,用户数据首先被写入到MemStre和Hlg中只有当操作写入HIg之后,mi t0调用・才会将其返回给客户端当用户读取数据时,Reg in服务器会首先访问Mem Stre缓・存,如果找不到,再去磁盘上面的StreFi Ie中寻找
138.如果我们现有一个安装
26.5版本的hadp集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块包括副本、200AB、40000C、400D、1200答案D解析问最终会在集群中产生1200个数据块
139.Hadp中MapReduce组件擅长处理哪种场景的计算任务?、迭代计算AB、离线计算C、实时交互计算D、流式计算答案B解析海量数据在单机上处理因为硬件资源限制,无法胜任而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度引入mapre duce框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将分布式计算中的复杂性交由框架来处理
140.下哪种不是Hive支持的数据类型0oA、structB、i ntC\mapDx Ing答案D解析Hive支持原始数据类型和复杂类型,原始类型包括数值型,Blean,字符串,时间戳,int复杂类型包括数组,map,structo
141.hadp平台中要查看Yarn服务中一^个appl icat in的信息,通常需要使用什么命令?Ax cntai nerB、jarC、appI icat in-attemptD、AppI icatin答案:D解析hadp平台中要查看Yarn服务中一个appl icatin的信息,通常需要使用Applicatin命令Cntainer将内存CPU、磁盘、网络等资源封装在一起,这样可以起到限定资源边界的作用把本地的java文件打包成jar包,然后放在Iinux集群上,通过hadp命令来运行该jar包
142.HBase来源于哪篇博文?A、TheGgIeF iI eSystemB\MapReduceC、BigTableD、Chubby答案C解析Bigtable是一种用于管理结构化数据的分布式存储系统,旨在扩展到非常大的尺寸对数千台商品服务器上的PB数据进行服务Bigtable不支持完整的关系数据模型,相反,它为客户端提供了一个简单的数据模型,支持对数据布局和格式的动态控制,并允许客户端推理底层存储中表示的数据的局部属性用户在Bigtable中可以使用是任意字符串的行和列名称对数据进行索引Bigtab Ie还将数据视为字符串,尽管客户端通常将各种形式的结构化和半结构化数据序列化到这些字符串中
143.FusinninsigetHD系统中,Flume数据流在节点内不需要经过哪个组件?A、SurceB、SinkC、Tp icD\channeI答案C解析FusinninsigetHD系统中,FI ume数据流在节点内不需要经过Tp ic组件在节点的内部,agent由surce、channe I和s ink组成surce负责消费从上游节点获取的events,并将其放到channel中,目前FI ume支持Avr、Thrift、S yslg、Netcat等数据流channel分为两种类型,一种是memrychanne I,它适合高吞吐量场景,但节点挂掉后数据可能会丢失另一种是filechannel,也就是channel里的数据会同步到硬盘里,节点意外挂掉后数据可恢复,但处理时间会稍长一些,Flume默认使用f ilechannelsink从channeI取数据并将其放入下游节点
144.如果需要由数据生产者决定数据发送给目标Bit的某一个确定的Task,应选择以下哪种消息发布策略?A、局部字段分组B、广播分组C、直接分组D、全局分组答案C解析如果需要由数据生产者决定数据发送给目标Bit的某一个确定的Task,应选择直接分组发布策略
145.Hadpffl件在企业应用中,能用于数据挖掘的产品有0o、HiveAB、PigC\MahutD、Hbase答案C解析Mahut可用于数据挖掘,Hive和Hbase是数据存储,pig是一种语言
146.若需要定义一个类域或类方法,应使用哪种修饰符?A、staticB\packageC、pr ivateD、pub Iic答案A解析类域类方法全局变量全局方法
147.以下关于Fl ink关键特性描述不正确的是0A、Sparkstreaming与Fl ink相比,时延更低B、F1ink流式处理引擎能够同时提供支持流处理和批处理应用的功能C、与FusininghtHD中的Streaming相比FI ink具有更高的吞吐量D、checkp int实现了FI ink的容错答案A解析Fl ink会比SparkStreaming有更低的流处理延迟性
148.关于Hive中的桶说法不正确的是A、每个桶是一个目录B、建表时指定桶个数,桶内可排序C、数据按照某个字段的值Hash后放入某个桶中D、对于数据抽样、特定jin的优化很有意义答案A程中的实体,一个进程可以拥有多个线程,一个线程必须有一个父进程线程不拥有系统资源,只有运行必须的一些数据结构;与父进程的其它线程共享该进程所拥有的全部资源线程可以创建和撤消线程,从而实现程序的并发执行一般,线程具有就绪阻塞和运行三种基本状态
14.以下哪种不是Hive支持的数据类型?A、StructB、I ntC、MapD、Lng答案:D解析Hi ve不支持Lng类型,Lng是Java里面的,在Hi ve里Lng对应的应该是BIGINTo
15.下面说法错误的是A、Hadp集群采用的是Master/S Iave工作模式B\DataNde上保存着的是元数据,真正的数据是存放在NameNde上的C、HDFS采用了一种对文件切割后分别存放的存储方式D、HDFS是为高数据吞吐量应用优化的答案B解析DataNde上数据块以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是数据块元数据包括长度、校验时间戳;
16.请问以下哪个命令组成是错误的?A、sbin/stp-dfs.sh解析一个分区就是一个目录,而不是桶
149.Fus inins ightManager用户权限管理不支持哪个配置?A、给用户配置角色B、给用户组配置角色C、给角色配量权限D、给用户组配置权限答案D解析Fus inins ightManager用户权限管理不支持给用户组配置权限
150.FI ink中的接口用于流数据处理,()接口用于批处理?A、DatabatchAPI,DatastreamAPIB、StreamAPI,BatchAPIC、DatastreamAPI,DatasetAPID、BatchAPI,StreamAPI答案C解析Fl ink中的DatastreamAPI接口用于流数据处理,DatasetAPI接口用于批处理
151.Fl ink的数据转换操作在以下哪些环节中完成()A、channeIB、Transfrmat inC\sinkD、surce答案B解析Fl ink的数据转换操作在Transfrmatin完成
152.部署FusininsightHD时,同一集群内的FlumeServer节点建议至少部署几个?、1AB、3C、4D、2答案D解析:部署FusininsightHD时,同一集群内的FlumeServer节点建议至少部署2个
153.整型数据类型中,需要内存空间最少的是Ax shrtB、IngC、i ntD、byte答案D解析byte,一个字节(八个二进制位)
154.数据仓库的最终目的是()A、收集业务需求B、开发数据仓库的应用分析C、建立数据仓库逻辑模型D、为用户和业务部门提供决策支持答案A解析数据仓库的最终目的是收集业务需求
155.为了保证流应用的快照存储的可靠性,快照主要存储在A、本地文件系统中B、Jbmanager的内存中C、HDFS中D、可靠性高的单机数据库中答案C解析为了保证流应用的快照存储的可靠性,快照主要存储在HDFS中
156.在Spark生态组件中,哪个产品可用于基于实时数据流的数据处理0A、SparkCreB、SparkSqIC、SparkStreamingD、ML Iib答案C解析SparkStreaming基于实时数据流
157.使用JAVAAPI进行HBaseS表扫描操作,以下命令输写正确的是A、table.getScannerscan;B、tab Ie.scan tab Ie;C\tab Ie.get tab Ie.scan;D、tab Ie.Scanner get;答案A解析使用tab Ie.getScanner scan进行扫描
158.在数据库模型中,可以指定条件对记录进行排序,使用的方法是Av rder_byB\f iIterC、rderD、grup0答案A解析保证结果集中的行已排序的方法是使用RDERBY子句
159.关于HBase实现的三个主要的功能组件说法错误的是A、主服务器Master负责管理和维护HBase表的分区信息,维护Reg in服务器列表,分配Reg in,负载均衡B、Regin服务器负责存储和维护分配给自己的Regin,处理来自客户端的读写请求C、客户端并不是直接从Master主服务器上读取数据,而是在获得Regin的存储位置信息后,直接从Reg in服务器上读取数据D、客户端并不依赖Master,而是通过Zkeeper来获得Regin位置信息,大多数客户端甚至从来不和Master通信,所以这种设计方式使得Master负载比较高答案D解析客户端并不依赖Master,而是通过Zkeeper来获得Regin位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小主服务器Master主要负责表和Reg in的管理工作-管理用户对表的增加删除、修改、查询等操作-实现不同Reg in服务器之间的负载均衡-在Reg in分裂或合并后,负责重新调整Reg in的分布-对发生故障失效的Reg in服务器上的Reg in进行迁移
160.使用JAVAAPI进行HBase操作,以下命令输写正确的是0A、HBaseTestCase.gettab I ename;B\HBaseTestCase.gettab I ename,rw1;C、HBaseTestCase.de IetetabIename,rw1,rw2;D、HBaseTestCase.scan tabIename,rw1,‘rw2;答案B解析使用HBaseTestCase.get语句,并索引所有属性de Iete/scan需要通过列簇个
161.下列关于Sparksereaming和Streaming比较说法不正确的是?A、Sparkstreaming个微批处理框架,事件需要积累到一定量时才进行处理B、Streaming的执行逻辑是即时启动,运行完后再回收C、Sparkstreaming的吞吐量大约是Streaming的2-5倍D、Spaa I streaming事件处理时延ttStreami ng更高答案B解析Streaming的执行逻辑不是即时启动,运行完后再回收由DStream串联一^Is*实时流的运行逻辑,DStream的put串联起一个批次的RDD之间的逻辑并且有执行算子计算出最终结果
162.以下不能进行系统日志数据采集的工具是0A、HadpB、PythnC、Scr ibeD、FIume答案B解析Pythn不能进行系统日志数据采集
163.Hive中以下操作不正确的是A、Iaddata inpath i nttabI enameB、i nsertinttabI enameC、i nsertverwr i tetabIenameDv i nsertverwrite inttabIename答案:D解析Hi ve中以下操作不正确的是insertverwri tetabIename
164.在尸351M$1811川口中,创建Lader作业的进行数据转换的正确步骤是A、输入设置转换,输出抽取转换,输出B、抽取、转换、输出C、加载,转换,输出D、加载,转换,抽取答案A解析在FuisninsightHD中,创建Lader作业的进行数据转换的正确步骤是输入设置转换,输出抽取转换,输出
165.关于大数据计算模式及其代表产品说法不正确的是A、批处理计算,针对大规模数据的批量处理,有MapReduce、Spark等B、流计算,针对流数据的实时计算,主要有St rm、Flume、Streams等C\图计算,针对大规模图结构数据的处理,主要有Pregel GraphX\Gi raph等D、查询分析计算,大规模数据的存储管理和查询分析,主要有Hive、Cassandra、ne4j等答案:D解析查询分析计算:大规模数据的存储管理和查询分析主要技术:Hive、Impala、DremeI vCassandra等ne4j主要用于图计算
166.最早提出大数据时代到来的是()A、波士顿B、麦肯锡C、埃森哲D、尼尔森答案B解析最早提出大数据时代到来的是麦肯锡
167.下面不是Zkeeper特点的是
0、简单AB、富有表现力C、支持索引D、是一个资源库答案C解析zkeeper本质上是一个分布式的小文件存储系统,类似于文件系统的目录树方式的数据存储,简单富有表现力,但不支持索引
168.下列关于Hadp版本说法错误的是A、ApacheHadp是最原始(最基础)的版本,对于入门学习最好B、HrtnwrksHadp文档较好C、CluderaHadp大型互联网企业中用的较多D、LinuxHadp更稳定答案D解析Hadp三大发行版本:ApacheV Cludera、Hrtnwrks Apache版本最原始(最基0础)的版本,对于入门学习最好Cludera在大型互联网企业中用的较多Hr tnwrks文档较好未找到I inuxhadp此发行版本
169.设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作A、分桶B、分区C、索引D、分表答案A解析分区针对的是数据的存储路径;分桶针对的是数据文件
170.关于Hi ve在FusininsightHD中的架构描述错误的是()A、只要有一^Hi veserver不可用,整个Hi ve集群便不可用B、Mtastre用于提供元数据服务,依赖于DBServiceC、在同一时间点,Hi veServer■只要一个处于Act ive状态,另一个则处于Standby状态D、Hi veserver负责接收客户端请求,解析,执行HQL命令并返回查询结果答案A解析一个Hiveserver不可用,整个Hive集群仍可用
171.大数据至少为以下哪种存储量级?A、EBB、PBC、TBD、ZB答案C解析一般认为,大数据的数量级是在“太字节”即2的40次方TB以上
172.Spark组件中哪个选项不属于transf rmatin操作?A、JinB、d ist inetC、reduceByKeyD、reduce答案D解析reduce是流操作比较核心的一个方法
173.HBase的物理存储单元是什么?A、ReginB、ClumnFami IyCCIumnxD、RW答案B解析HBase的物理存储单元是C lumnFamiI y
174.Zkeeper的Scheme认证方式不包括以下哪项()A、digestB、sasIC、authD、wr Id答案B解析Zkeeper的Scheme认证方式包括wr Id、digest、auth、ip
175.Hbase中数据存储的文件格式是什么?、HlgAB、Textf iIeC、HF IIeD、sequencer Iie答案C解析Hbase中数据存储的文件格式是HFIIe
176.FusininsightHD中Hbase默认使用什么组件作为其底层文件存储系统A、FileB、KafkaC、HDFSD、Memry答案CB、sb in/hdfsdfsadmi n-reprtC、b in/hadpnamende-frmatD、b in/hadpfs-cat/hadpdata/my.txt答案B解析A选项,sbin/stp-dfs.sh是用来停止日志相关服务C选项,它负责管理文件系统的命名空间,维护文件系统的文件树以及所有的文件和目录的元数据D选项,文件目录有关B选项命令不存在所以选B
17.YARN中默认的资源调度器是?、FIF调度器AB、容量调度器C、Fair调度器D、以上全不是答案B解析YARN中默认的资源调度器是容量调度器
18.关于相关性rA,B说法错误的是()A、rA,B0,正相关A随B的值得增大而增大Bv rA,B=0不相关AB无关C、rA,B〈O,负相关A随B的值得增大而减少D、不能单纯依据rA,B〈Ofig定AB相关性答案D解析不能单纯依据rA,B〈Of ig定AB相关性是错误的r为相关系数解析FusininsightHD中Hbase默认使用HDFS作为其底层文件存储系统
177.HBase的Regi n组成中,必须要有以下哪一项Ax StreFi IeB、MemStreC、HFi IeD、MetaStre答案B解析Regin是集群节点上最小的数据服务单元,用户数据表由一个或多个Regi n组成在Reg in中每个Cl umnFamiI y的数据组成一个St re每一个regin由一个或多个stre组成,至少是一个stre一个Stre由一个memStre和0或者多个oStreFi Ie组成,HBase以stre的大小来判断是否需要切分reginHbase中并美有metastre
178.Hadp的HBase不适合哪些数据类型的应用场景?、大文件应用场景AB、海量数据应用场景C、高吞吐率应用场景D、半结构化数据应用场景答案A解析架构设计复杂,且使用HDFS作为分布式存储,因此只是存储少量数据,它也不会很快在大数据量时,它慢的不会很明显179,下面对Streaming中基础概念说法不正确的是()A、Tplgy是streaming中运行的一个实时应用程序B、Nimbus负责资源分配和任务调度C、Sput是在一个tplgy中接受数据然后执行处理的组件D、Wrker运行具体处理组件逻辑的进程答案C解析Bit是在一个tplgy中接受数据然后执行处理的组件,不是Sput
180.一个gzip文件大小75MB,客户端设置Bick大小为64MB,请问其占用几个BI ckA、3B、2C、4D、1答案B解析hadp上传的文件超过blck设置,都会分开存储,只是在处理时会作为一个split处理,是由压缩方式决定的,不支持并行处理
181.Hadp系统中关于客户端向HDFS文件系统上传文件说法正确的是?A、客户端的文件数据经过NameNde传递给DataNdeB、客户端将文件分为多个Bek,根据DataNde的地址信息,按顺序写入每一个D ataNde中C、客户端根据DataNde的地址信息,按顺序将整个文件写入每一个DataNde中,然后由DataNde将文件划分为多个BickD、客户端只上传数据到一个DataNde,然后由Namende负责Bek复制答案B解析Cl ient向NameNde发起文件写入的请求NameNde根据文件大小和文件块配置情况,返回给Cl ient它所管理部分DataNde的信息Cl ient将文件划分为多个Bick,根据DataNde的地址信息,按顺序写入到每一个DataNde块中
182.Kafka集群在运行期间直接依赖于下面那些组件?Av HbaseB、SparkC、ZkeeperD、HDFS答案C解析使用单节点Zkeeper启动kafka服务
183.下列选项中适合Mapreduce的场景
0、实时交互计算AB、迭代计算C、流式计算D、离线计算答案D解析离线计算适合Mapreduce的场景
184.关于Hi ve与Hadp其他组件的关系以下描述错误的是A、Hive最终将数据存储在HDFS中B\Hi ve是Hadp平台的数据仓库工具C、HQL可以通过Mapreduce执行任务D、Hive对Hbase有强依赖答案D解析hive不是数据库,而是数据仓库,主要依赖于hadp来实现
185.Java中关于父子类描述正确的是A、一个子类可以有多个父类,一个父类也可以有多个子类B、一个子类可以有多个父类,但一个父类只可以有一个子类C、一个子类可以有一个父类,但一个父类可以有多个子类D、上述说法都不对答案C解析在java中规定一个父类可以有多个子类,但是一个子类只能有一个父类子类可以通过extends关键字来继承父类
186.下列关于数据交易市场的说法中,错误的是A、数据交易市场是大数据产业发展到一定程度的产物B、商业化的数据交易活动催生了多方参与的第三方数据交易市场C、数据交易市场通过生产数据研发和分析数据,为数据交易提供帮助D、数据交易市场是大数据资源化的必然产物答案C解析数据交易市场通过研发和分析数据,为数据交易提供帮助,并不生产数据
187.关于RDD,下列说法错误的是?、RDD具有血统机制LineageAB、RDD默认存储在磁盘C、RDD是一个只读的,可分区的分布式数据集D、RDD是Spark基础数据的抽象答案B解析RDD默认存储在内存,当内存不足时,溢写到磁盘
188.在HBaseShel I操作中,请选择以下哪个命令用于删除整行操作0A、de Ietefrmusers1,1x i ami ngB\de IetetabIefrmx iami ngC、de Ietea IIusers,1x iami ngD、de Ietea II1x iami ngr答案C解析HBase中使用de Ietea II删除整行,通过索引具体属性
189.在MapReduce中,组件是用户不指定也不会有默认的A、binerB、utputFrmatC\PartitinerD、InputFrmat答案A解析在MapReduce编程模型中,bi ner是可有可无的组件,它的作用就是用来给mapTask的结果数据做局部合并以减少reduceTask接收的数据量,以减少网络数据传输utputFrmat的默认组件是TextutputFrmat,I nputFrmat的默认组件是TextI nputFrmat,Part itiner的默认实现是HashPart itiner
190.以下关于KafkaPart itin偏移量的描述不正确的是、每条消息在文件中的位置称为ffset偏移量AB、消费者通过ffset/.part itin,tpic跟踪记录C唯一标记一条消息D、ffset是一个String型字符串答案D解析ffset是int型
191.FI ink是流计算处理和批处理平台,()是数据批处理和流处理的核心引擎A、Runt imeB、DataStreamC、DataSetD、FlinkCre答案:A解析FlinkRuntime是一个分布式的流处理引擎(分布式的系统),提供了支持Fl ink计算的全部核心实现,能够接受数据流程序并在一台或多台机器上以容错方式执行Fl ink使用DataStream、DataSet在程序中表示数据,我们可以将它们视为可以包含重复项的不可变数据集合
192.关于kafka逍息消费者Cnsumer读取消息的描述,错误的有?、Cnsumer使用ffset来记录读取的位置AB、图片中的蓝色框为Kafka的一个Tpic,即可以理解为一个队列,每个格子代表一条消C、生产者产生的消息逐条放到Tpic的末尾D、消费者从右至左顺序读取消息答案D解析Cnsumer通过拉pull的模式从brker中读取数据;另一种是brker向消费者推push数据
193.以下哪个不是DataStream的组成部件A、DatasurceB\TransfrmatinsC、ChanneID、Datas ink答案C解析Channel是频道,波段的意思,DateStream是数据库不包含频道
194.FI ume数据采集的过程中,下列选项中对数据进行过滤和修饰的是?A、ChanneIB、ChanneIseIectrC\Interceptr答案c解析Flume数据采集的过程中,I nterceptr对数据进行过滤和修饰channel是一个数据的缓冲池,位于surce与sink之间的缓冲区,允许surce、sink在不同的速率上可以同时处理多个surce的写入操作及多个sink的读取操作f lumechanneI seI ectrs允许给一个surce可以配置多个channe I的能力
195.关于Mnesia说法错误的是A、Mnesia是一个分布式数据库管理系统B、Mnesia支持事务,支持透明的数据分片,利用两阶段锁实现分布式事务,可以线性扩展到至少50个节点C Mnesia的数据库模式schema可在运行时动态重配置,表能被迁移或复制到多个节点来改进容错性D、Mnesia的特性,使其很适合在开发HDFS时被用来提供分布式文件系统服务答案D解析Mnesia分布式数据库管理系统Mnes ia运行在cntr II er服务器上支持事务提供透明的数据分片、利用两阶段锁来实现分布式事务具有线性扩展性可扩展到至少50个节点Mnesia的数据库模式可在运行时动态重配置,表可被迁移或复制至多节点来实现高容错性这一点是不同于一般关系型数据库最明显的地方Mnesia是一个分布式数据库管理系统DBMS,适合于需要连续运算和软实时特性的电信应用及其他Er lang应用
196.Hadp中哪个模块负责HDFS的数据存储?A、NameNdeB、DataNdeC、zkeeperD、JbTracker答案B解析Hadp中DataNde模块负责HDFS的数据存储
197.HFi Ie数据格式中的Data字段用于Av存储实际的KeyVa lue数据B、存储数据的起点C、指定字段的长度D、存储数据块的起点答案A解析hf iIe是hbase中存储数据的文件,图1描述了hf iIe文件格式hf iIe文件由6部分组成datab Ick,metab Ick可选,f iIei nf,datab Ick i ndex,m etabIckindex,trai lerdatab Ick存储了表数据,ometab Ick存储了布隆过滤器索引数据,f ileinf存储了本文件的相关信息,index存储了datab Ick和metab lek的索引数据,trai ler存储了本文件的相关信息
198.以下更新HBase表中数据的语法,输写正确的是A、updateuser,xiamingset inf.age=1B、updateusers,x iami ng1,1i nf.age,129C\putusers1,xiami ng,i nf.ageD、putusers1,xiami ng,1inf.age,29答案D解析HBase中直接使用put更新表中数据,C选项少了年龄
199.HDFS中的blck默认保存几个备份A、3份B、2份C、1份D、不确定答案A解析HDFS中的bIck默认保存3个备份
200.关于大数据特点说法错误的是A、数据量大B、数据类型繁多C、处理速度快D、价值密度高答案D解析大数据的特点主要分为以下四点Vlume(大量)、Velcity(高速)V ariety(多样)、Value(低价值密度)可见价值密度高不是大数据的特点
201.如果想要修改集群的备份数量,可以修改下面哪个配置文件?A、mapred-site.xmlB、cre-si te.xmlC\hdfs-site.xmlD、hadp-env.sh答案C解析hadp中备份数设置(hdfs-site,xml)
202.MacS系统的开发者是()、微软公司AB、惠普公司C、苹果公司D、IBM公司答案C解析MacS
9.0是比尔阿特金森、杰夫拉斯金和安迪赫茨菲尔德,是乔布斯还•••在苹果的时候开发的
203.以下对hive中表数据操作描述正确的是()o
19.HDFS有一个gzip文件大小75MB,客户端设置Bick大小为64MB当运行maporeduce任务读取该文件时inputspl it大小为?Ax一个map取64MB,另外一个map取11MBB、128MBC、64MBD、75MB答案D解析gzip不支持split,所以inputspl it大小为文件大小
20.以下关于fusininsightCTbase的描述不正确的是?、CThase的读写数据接口,统一封装了行定义的接口,自动进行冷字段的合并和A解析,不需要在应用程序中进行合并和解释B、CTHBase是基于Hbase的聚簇表开发框架云HBASE数据库CT-Hbase基于开源HBase引擎,支持NSQL和二级索引的实时数据分析服务CsCTHbase提供了一套Webui进行元数据定义,提供了只管医用的表设计工具,降低表设D、CTHbase的JavaAPI提供一套Hbas链接池管理的接口,内部进行连接共享,减少客户端应用开发难度答案B解析CTHBase不是基于Hbase的聚簇表开发框架云HBASE数据库CT-Hbase基于开源HBase引擎,支持NSQL和二级索引的实时数据分析服务
21.在Webheat架构中,用户能够通过安全的HTTPS协议执行以下哪些操作?A、执行HiveDDL操作、hive可以修改行值AB、hive可以修改列值C、hive不可以修改特定行值、列值D、以上说法都不对答案:C解析hive不可以修改特定行值、列值,Hive在处理数据时一般不对数据进行改写,因为它不支持行级别的增删操作,如果要进行更新数据,一般可以通过分区或者表直接覆盖
204.下面哪个程序负责HDFS数据存储A、NameNdeB、JbtrackerC、DatandeD、SecndaryNameNde答案c解析datande负责管理它所在节点上存储的数据的读写,及存储数据,一般是文件系统客户端需要请求对指定数据点进行读写操作,DataNde作为数据节点的服务进程来文件系统客户端打交道
205.安装fusini nsightHD的Streaming组件时,Nimbus角色要求安装几个节占
八、、■、4AB、3C、2D、1答案C解析安装fusininsightHD的Streaming组件时,Nimbus角色要求安装2个节点,主控节点MasterNde和工作节点WrkerNde,主控节点1个,工作节点可以是多个
206.Hbase的Reg in是由哪个服务进程来管理的A、HReginserver
8、ZkeeperC\HMasterD、DataNde答案A解析Hbase的Reg in是由HRegi nserver服务进程来管理的
207.spark的核心模块是A、sparkstreamingB、sparkcreC、mapreduceD、sparksqI答案B解析SparkCre中提供了Spark最基础与最核心的功能
208.HBase分布式模式最好需要个节点?A、1B、2C\3D、最少答案C解析-HBase-HadpDatabase,是一个高可靠性高性能面向列、可伸缩实时读写的分布式数据库-利用HadpHDFS作为其文件存储系统,利用HadpMapRe duce来处理HBase中的海量数据,利用Zkeeper作为其分布式协同服务-主要用来存储非结构化和半结构化的松散数据(列存NSQL数据库)Hbase的架构图如下所示
209.关于Kafka磁盘容量不足的告警,对于可能的原因以下分析不正确的是?A、业务规划不合理导致数据分配不均,使部分磁盘达到使用率上限B、数据保存时间配置过长,数据累计达到磁盘使用率上限C、Brker节点故障导致D、用于存储Kafka数据的磁盘配置(如磁盘数目,磁盘大小等),无法满足当前业务数据流量,导致磁盘使用率达到上限答案C解析Brker故障之后,会不断重试(默认2147483647次,可通过retries配置)直到消息提交成功,如果超过配置的重试次数还是失败,则返回给客户端异常
210.Spark自带的资源管理框架是?0A\StandaI neB、MessC、YARND、Dcker答案A解析Standalne是Spark自带的资源管理框架
211.关于MapReduce的说法正确的是A、MapReduce
1.0用YARN框架来进行资源调度的B、MapReduce是基于内存计算的框架Cv MapReduce是分布式文件存储系统D、MapReducel.0既是一个计算框架又是一个资源调度框架答案D解析
71、A选项,MapReduce
2.0用YARN框架来进行资源调度的,MapReducel.使用jbtracker框架的B选项,Spark是基于内存计算的框架C选项,HDF S是分布式文件存储系统故此题,选DMapReducel.0既是一个计算框架又是一个资源调度框架
212.对于Hi ve中关于普通表和外部表描述不正确的是?A、默认创建普通表B、删除外部表时,只除外部表数据而不删除元数据C、外部实质是将已存在于HDFS上的文件路径跟表关联起来D、删除普通表时,元数据和数据同时被删除答案C解析外部表和内部表很类似,但是其数据不是放在自己表所属的目录中,而是存放到别处,这样的好处是如果你要删除这个外部表,该外部表所指向的数据是不会被删除的,它只会删除外部表对应的元数据
213.如果对HBase表的添加数据记录,可以使用()命令进行操作A、createB、getC、putD、scan答案C解析:HBase使用put命令向数据表中插入数据,put向表中增加一个新行数据,或覆盖指定行的数据
214.大数据时代,数据使用的关键是()、数据收集AB、数据存储C、数据分析D、数据再利用答案D解析数据再利用是大数据时代数据使用的关键
215.为了提高Kafka的容错性,Kafka支持Part itin的复制策略,以下关于LeaderPart itin和Fl IwPart it in的描述错误的是0A、Kafka针对Part itin的复制需要选出一个Leader由该Leader负责Partitin的读写操作其他的副本节点只是负责数据同步B、由于LeaderServer承载了全部的请求压力因此从集群的整体考虑,Kafka会将Leader均衡地分散在每个实例上,来确保数据均衡C、一个Kafka集群各个节点间不可能互为Leader和FlwerD、如果Leader失效那么将会有其他f IIwer来接管(成为新的Leader)答案C解析一个Kafka集群各个节点间可能互为Leader和Flwer
216.HDFS有一个LZ(withindex)文件大小75MB,客户端设置Bick大小为64MB当运行mapreduce任务读取该文件时inputspl it大小为?A、—map取64MB,另外—map取11MBB、64MBC、75MBD、128MB答案:A解析LZ支持split,所以根据Bick大小,切成两块,分别为
64、11MB
217.下列关于HDFS的描述正确的是?A、NameNde盘元数据不保存Bick的位置信息B、DataNde通过长连接与NameNde保持通信C、HDFS集群支持数据的随机读写D、如果NameNde宕机,SecndaryNameNde会接替它使集群继续工作答案A解析所有datandes定期(默认为3秒)向namende发送包含节点使用统计信息的心跳信息hdfs只支持随机读SecndaryNameNd是帮助恢复,而不是替代
218.关于Hi ve与Hadp其他组件的关系,以下描述错误的是?A、Hive最终将数据存储在HDFs中B、Hi veSQL其本质是执行MapReduce任务C\Hive是Hadp平台的数据仓库工具D、hive对HBase有强依赖答案D解析H ive和HBase是协作关系
219.关于MapReduce的特点,下列说法不正确的是、高容错性AB、适合PB级以上海量数据进行离线处理C、良好的扩展性D、适合做实时计算答案:D解析:不擅长实时计算MapReduce无法像MySQL一样,在毫秒或者秒级内返回结果
220.以下标识符中哪项是不合法的A、cnstB、$dubIeC、hel ID、Bi gMeaningIessName答案A解析在Java中标识符是赋予变量对象类和方法的名称标识符可以由字母数字下划线和美元符组成,但数字不能开头,不能用关键字做标识符
221.KafkaClusterMi rrr ing工具可以实现以下哪项功能
0、Kafka跨集群数据同步方式AB、Kafka单集群内数据备份C、Kafka单集群内数据恢复D、以上全不正确答案A解析KafkaCI usterMirrring工具可以实现Kafka跨集群数据同步方式
222.Streaming主要通过zkeeper提供以下的哪项实现事件侦听?A、分布式锁机制B、WatcherC、Checkp int答案:B解析zkeeper原生就支持通过注册Watcher来进行事件监听,但是其使用并不是特别方便,需要开发人员反复注册Watcher,比较繁琐Curatr引入了Cache来实现对zkeeper服务端事件的监听
223.在很多小文件场景下,Spark会起很多Task,当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数严重影响性能Fusininsigh中,针对小文件的场景通常采用()算子,来对Table中的小文件生成的partit in进行合并,减少part itin数,从而避免在shuffle的时候,生成过多的hash分桶,提升性能?、grupbyAB、caI easeCcnnectxD、j in答案D解析Fus ininsigh中,针对小文件的场景通常采用j in算子,来对Tab Ie中的小文件生成的part itin进行合并,减少partitin数,从而避免在shuff Ie的时候,生成过多的hash分桶,提升性能
224.RDD有Transfrmat in和Act in算子,下列属于Act in算子的是Av mapB、saveASTextF iIeC、Fi IterD、reducebykey答案B解析属于Act in算子的有f reach,c Ilect,cunt,saveAsTextFi Ie
225.Hadp-
2.xM群中的HDFS的默认的副本块的个数是?A、3B、2C、1D、4答案A解析Hadp-
2.xM群中的HDFS的默认的副本块的个数是3个
226.以下对于zkeeper中的角色描述错误的是0A、Leader:负责进行投票的发起和决议B、Fllwer:接受客户请求并向客户端返回结果C、bserver:接收客户端请求,参加投票D、Client:请求发起方答案c解析bserver可以接受客户端连接,接受读写请求,写请求转发给Leader,但bserver不参加投票过程,只同步Leader的状态,bserver的目的是为了扩展系统,提高读取速度
227.在Spark生态组件中,哪个产品可用于基于历史数据的交互式查询()A、SparkCreB、SparkSqIC、SparkStreamingD、ML Iib答案:B解析在Spark生态组件中,sparksq I可用于基于历史数据的交互式查询
228.HBase中的批量加载底层使用0实现A、MapReduceB、H iveC CprcessrxD、BlmFi Iter答案A解析HBase包含几种将数据加载到表中的方法最直接的方法是使用MapRedu ce作业中的TableutputFrmat类,或者使用普通的客户端API;然而,这些并不总是最有效的方法批量加载功能使用MapReduce作业以HBase的内部数据格式输出表格数据,然后直接将生成的StreFiles加载到正在运行的群集中使用批量加载将比使用HBaseAPI使用更少的CPU和网络资源B\运行Mapreduce任务C、运行HiveHL任务D、以上全都正确答案D解析在Webheat架构中,用户能够通过安全的HTTPS协议执行Hi veDDL操作、运行Mapreduce任务、运行HiveHL任务
22.HBase依赖提供消息通信机制A、ZkeeperB、ChubbyC、RPCD Scketx答案A解析ZKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Ggl e的Chubby一个开源的实现,是Hadp和Hbase的重要组件它是一个为分布式应用提供一致性服务的软件,提供的功能包括配置维护域名服务、分布式同步组服务等
23.在Mapper类中,共有4个函数setup0\map0\、run0oAv Reducer0B、cIeanup0C、Spl itD、leal答案B
229.以下哪个不属于数据分析报告的开篇部分
0、索引AB、前言C、目录D、标题答案:A解析索引不属于数据分析报告的开篇部分
230.HBase中如果发生一个Regin的SpI it,将一个HFi Ie文件真正分开到两个Regin的过程发生在以下什么阶段?、Spl it过程中AB、Flush过程中C\pact in过程中D、HFi Ie分开过程中答案C解析pact in过程中将一个HFi Ie文件真正分开到两个Regi n
231.以下哪个关键字可以用来为对象加互斥锁?Av transi entB、stat icC、ser ia Ii zeD、synchrn ized答案D解析A关键字transient修饰的属性将不被串行化B静态的类方法C对象串行化
232.以下哪一项不属于创建Lader作业时必选项?、优先级AB、名称C、连接D、类型答案A解析优先级不属于创建Lader作业时必选项
233.Hbase的主Master是如何选举的A、由Regi nserver进行裁决B Master为双主模式,不需要进行裁决xC、通过Zkeeper进行裁决D、随机选举答案C解析Hbase的主Master是通过Zkeeper进行裁决选举的
234.关于Hadp单机模式和伪分布式模式的说法正确的是oA、两者都有守护进程,且守护进程运行在一台机器上B、单机模式不使用HDFS,但加载守护进程C、两者都不与守护进程交互,避免复杂性D、后者比前者增加了HDFS输入输出以及可检查内存使用情况答案D解析伪分布模式比单机模式增加了HDFS入输出以及可检查内存使用情况
235.以下选项中主节点和从节点配置的端口都是()、9000AB、1000C、7000D、8000答案A解析9000:主节点和从节点配置的端口都是
9000236.以下哪个不是Spark分布式部署方式?A、StandaI neB、sparknmessC、sparknYARND、SparknIcaI答案D解析Spark支持的主要的三种分布式部署方式分别是standa Ine、sparknmess和sparknYARNA:standaIne模式,即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统它是Spark实现的资源调度框架;B:mess是一个更强大的分布式资源管理框架,它允许多种不同的框架部署在其上,包括yarn;C:yarn是统一的资源管理机制,在上面可以运行多套计算框架;
237.Spark原生开发语言是()A、Sea IaB、JavaC、PyPhtthnD、R语言答案A解析Spark原生开发语言是Scala,pythn,Java
238.在Fl ink技术架构中,以下哪项是流处理和批处理的计算引擎?A、StandaI neB、Runt imeC\Fl inkCreD\Datasteam答案B解析Runtime是流处理和批处理的计算引擎;Standa Ine模式是Spark自带的资源调动引擎;Fl inkCre(runt ime层)是一个分布式的流处理引擎;datastream流式引擎
239.下列哪个命令是从HDFS下载日录/文件到本地的()Av dfs-putB、dfs-catC、dfs-getD、dfs-mkd ir答案C解析dfs-get命令是从HDFS下载日录/文件到本地的()
240.在Fl ink的运行流程中,负责申请资源的角色是A、ResurcemanagerB、JbmanagerC、Cl ientD、Taskmanager答案B解析在Fl ink的运行流程中,负责申请资源的角色是JbmanagerResurceman agerResurceManager主要负责资源的分配和管理,在Fl ink集群中只有一个CI ierrt是Flink程序提交的客户端,当用户提交一个FI ink程序时,会首先创建一个Client,该Client首先会对用户提交的Fl ink程序进行预处理,并提交到FI ink集群中处理TaskManager是FI ink的wrker节点,它负责FI ink中本机s It资源的管理以及具体task的执行
241.假设每个用户最低资源保障设置为yarn,scheduler,capacity,rt.QueueA.、第3个用户提交任务时,每个用户最多获得
33.33%的资源AB、第2个用户提交住务时,每个用户最多获得50%的资源C、第4个用户提交任务时,每个用户最多获得25%的资源D、第5个用户提交任务时,每个用户最多获得20%的资源minimum-user-1imit-percent=24,则以下说法错误的是?答案D解析第5个用户提交任务时每个用户最多获得20%的资源
242.hbase的底层数据以的形式存在的?A、keyvaIueB、列存储C、行存储D、实时存储答案A解析在Hbase底层中是以<key,va Iue>形式存储的数据
243.下列选项中,关于Zkeeper可靠性含义说法正确的是?A、可靠性通过主备部署模式实现B、可靠性是指更新更新只能成功或失败没有中间状态C、可靠性是指无论哪个server对外展示的均是同一个视图D、可靠性是指一个消息被一个Server接受,它将被所有的Server接受答案:D解析可靠性是指一个消息被一个Server接受,它将被所有的Server接受
244.Flume支持多级级联的sink类型是()Ax hdfssi nkB、avrs inkC、fiIerI Isi nkD、hbases ink答案B解析avrsink支持多级级联
245.下面对Streaming特性说法正确的是0A、如果并不要求每个消息必须被处理(允许在处理过程中丢失一些信息),那么可以关闭消息的可靠处理机制,从而可以获取较好的性能B、关闭消息的可靠处理机制意味着系统中的消息数不会减少C将参数Cnf ig.TPLGY_ACKERS设置为1可以关闭消息秫亍可靠性处理机制D、Sput发送一个消息时,使用指京消息messagelD的接口进行发送可以关闭消息的可靠性处理机制答案A解析如果并不要求每个消息必须被处理,那么可以关闭消息的可靠处理机制,从而获取较好的性能
246.关于fus ininsightmanager界面hi ve日志收集的描述中,哪个不对、可指定实例进行日志收集,比如指定收集metastre的日志AB、可指定节点ip进行下载某个ip的日志C、可指定特定用户进行日志收集,例如仅下载用户的日志D、可指定时间进行日志收集,如:只收集201677到2016770的日志答案C解析可指定实例、节点ip、时间进行日志收集
247.Hadp的配置文件hdfs-site.xml如下,其中说法错误的是cnf igurat i nnamedfs.rep Iicatin/namevaIue3/vaIue/prpertynamedfs.namende.name,d ir/nameXva Iuef iIe:/usr/1ca I/hadp/tmp/dfs/name/va IueX/prpertynamedfs.datande.data,d ir/nameXva Iuef iIe:/usr/1caI/hadp/tmp/df s/data/vaIue/prpertynamedfs.bIcks ize/namevaIue134217728/va IueX/prpertyX/cnf iguratinA、dfs.repl icatin表示副本的数量,伪分布式要设置为3更能保证数据不会出错B、dfs.namende.name,d ir表示本地磁盘目录,是存储fsimage文件的地方C\dfs.datande.data,d ir表示本地磁盘目录,HDFS数据存放b Ick的地方D、dfs.blcksize大小为128M对大多数生产环境来说是一个比较稳妥的值因为该值决定了MR的默认map数,也会影响NN消耗的内存量,需要谨慎修改答案A解析副本数量一般为3,但伪分布式只有一个数据节点所以配置为
1248.关于Kafka磁盘容量不足的告警,对于可能的原因以下分析不正确的是?A、用于存储Kafka数据的磁盘配置如磁盘数目磁盘大小等,无法满足当前业务数据流里,导致磁盘使用率达到上限B、数据保存时间配置过长,数据累积达到磁盘使用率上限C、业务规划不合理,导致数据分配不均,使部分盘达到使用率上限D、Brker节点故障导致答案D解析由于Kafka的消息需要持久化到磁盘中,磁盘故障会影响Kafka的使用,严重时会造成数据丢失一个Brker节点的磁盘发生故障,导致这个Brker节点的进程退出
[3],进而影响了Kafka中的某一个Tpic的正常使用
249.Hive中的这条命令ALTERTABLEemp IyeeADDc Iumns c Iumn Istr ing.H是什么含义?、创建表AB、删除表C、添加列D、修改文件格式答案C解析Hive中的这条命令ALTERTABLEemp IyeeADDc IumnscIumnIstring.H是添加列创建表CREATETABLE创建一个指定名字的表如果相同名字的表已经存在,则抛出异常;用户可以用IFNTEXISTS选项来忽略这个异常EXTERNAL关键字可以让用户创建一个外部表,默认是内部表外部表在建表的必须同时指定一个指向实际数据的路径LCATIN,Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据删除表drptableifexistsemplyee;添加列用Alter命令用备份表重新加载
250.Hbase中的pact in过程发生在什么时候?O、MemStre发生f Iush的时候AB、HLg大小达到一定阈值的时候C、StreFiIe文件个数达到一定阈值的时候D、HFi Ie写入HDFS的时候答案A解析:MemStre发生flush的时候发生pact in
251.按粒度大小的顺序,Hiv卷攵据被组成数据库、表和桶、按分区AB、元数据C、行D、块答案A解析按粒度大小的顺序,Hive数据被分为数据库、数据表、数据分区、桶
252.HDFS中Namende的主备仲裁是由哪个组件控制的0A、HDFSCI ientB、NdemanagerC\ResurcemanagerD、ZkeeperFai IverCntrlIer答案D解析HDFS中NameNde的主备仲裁,由ZKeeperFa iI verCntrIIer组件控制;业务应用调用HDFSCI ient提供的API写入和读取数据;Ndemanager功能包括与ResurceManager保持通信,管理Cntainer的生命周期、监控每个Cntainer的资源使用内存、CPU等情况追踪节点健康状况管理日志和不同应用程序用到的附属服务等;ResurceManager RM是一^^仲裁整个集群可用资源的主节点,帮助YARN系统管理其上的分布式应用
253.传统数据处理的数据单位?、TBAB、EBC、PBD、GB答案D解析传统数据处理的数据单位是GBTB太字节Terabyte,计算机存储容量单位,也常用TB来表示1TB=1024常用八40字节EB病毒epste in-barrv irus,EBv,又称人类疱疹病毒4型Humanherpesvirus4HHV-4在性病临床上是e。