zzzdaocao================单选题======================== 序号题干答

================单选题======================== 序号题干答案题型选项A 选项B 选项C 选项D 1 Apriori 算法使用哪个指标筛选项目集（Itemset）？（） B 单选题交易编号 (TransactionID) 最小支持度 (Minimum Support) 最小信赖度 (Minimum Confidence) 购买数量 2 SQL 语言中，删除一个表中所有数据，但保留表结构的命令是（）。 A 单选题 DELETE DROP CLEAR REMORE 3 变量的量纲比如以分或者元为单位对下面哪种方法会有影响。（） C 单选题方差分析回归分析聚类分析主成分分析 4 分类算法就是按照某种标准给对象贴标签，再根据标签来归类，以下属于分类算法的是（）。 B 单选题 DBSCAN C4.5 K-Mean EM 5 分析顾客的消费行为，以便有针对性的向其推荐感兴趣的服务，属于（）问题。 A 单选题关联规则挖掘分类与回归聚类分析时序预测 6 关联规则的评价指标是（）。 C 单选题均方误差、均方根误差 Kappa统计、显著性检验支持度、置信度平均绝对误差、相对误差 7 回归分析首要解决的问题是（）。 A 单选题确定解释量和被解释变量确定回归模型建立回归方程进行检验 8 聚类方法中，以下哪种方法需要指定聚类个数。（） B 单选题层次聚类 K 均值聚类基于密度的聚类基于网格的聚类 9 "开始将N个样品各自作为一类，并规定样品之间的距离和类与类之间的距离，然后将距离最近的两类合并成一个新类，计算新类与其他类的距离，重复进行两个最近类的合并，每次减少一类，直至所有的样品合并为一类，此种聚类方法是（）。" C 单选题 K-means SOM 聚类系统聚类有序聚类 10 如果数据量较大，哪种聚类算法比较适合？（） B 单选题系统聚类快速聚类(k-means ) A 和 B 都可以 A 和 B 都不可以 11 什么是 KDD？（） A 单选题数据挖掘与知识发现动态知识发现文档知识发现领域知识发现 12 适宜采用 DBSCAN 算法的数据形状是（）。 B 单选题球形 SS形椭球形方形 13 数据挖掘中Naive Bayes属于什么方法？（） B 单选题聚类分类时间序列关联规则 14 下列选项中，属于关联规则算法的是（）。 C 单选题决策树、对数回归、关联模式 K均值法、 SOM 神经网络 Apriori算法、 FP-Tree 算法 RBF神经网络、 K 均值法、决策树 15 要查询 wold_books 表中所有书名中以 “中国” 开头的书籍的author，可用（）语句。 D 单选题 "SELECT author FROM wold_books WHEREbook_name=‘中国*’" "SELECT author FROM wold_books WHEREbook_nameLIKE ‘中国*’" "SELECT author FROM wold_books WHEREbook_name=‘中国%’" "SELECT author FROM wold_books WHEREbook_name LIKE ‘中国%’" 16 下列哪个属性是hdfs-site.xml中的配置（）。 A 单选题 dfs.replication fs.defaultFS mapreduce.framework.name yarn.resourcemanager.address 17 以下不属于监督学习模型的是（）。 C 单选题支持向量机朴素贝叶斯关联分析线性回归 18 以下四项指标中，不能用于线性回归中的模型比较的是（）。 A 单选题 R 方调整 R 方 AIC BIC 19 以下选项不属于原始数据来源的是（）。 C 单选题犯罪记录抽样调查统计年鉴模拟实验 20 以下选项哪个不属于分类算法？（） D 单选题 KNN算法逻辑回归 C4.5算法 TF-TDF 算法 21 以下选项中，哪个有可能是 Apriori 算法所挖掘出来的结果？（） A 单选题买计算机同时会购买相关软件买打印机后过三个月会买墨水卖便携计算机较台式机所获得额外利益以上皆均不是 22 针对聚类分析，下面说法错误的是（）。 A 单选题一定存在一个最优的分类聚类分析是无监督学习聚类分析可以用于判断异常值聚类分析即 :物以类聚 , 人以群分 23 HDFS中的数据块（block）默认保存几份？（） A 单选题 3 份 2 份 1 份不确定 24 Hadoop集群中存在的最主要瓶颈是（）。 C 单选题 CPU 网络磁盘 IO 内存 25 以下哪个不是Spark的分布式部署方式？（） D 单选题 standalone spark on mesos spark on YARN Spark on local 26 Hive是以（）技术为基础的数据仓库。 C 单选题 HDFS MAPREDUCE HADOOP HBASE 27 以下哪个操作是hive不支持的？（） B 单选题表增加列表删除列表修改列修改表名 28 以下对hive中表数据操作描述正确的是（）。 C 单选题 hive可以修改行值 hive可以修改列值 hive不可以修改特定行值、列值以上说法都不对 29 Hive中以下操作不正确的是（）。 D 单选题 load data inpath into table name insert into table name insert overwrite table name insert overwrite into table name 30 下面与Zookeeper类似的框架是哪一个？（） D 单选题 Protobuf Java Kafka Chubby 31 最早提出大数据时代到来的是（）。 B 单选题波士顿麦肯锡埃森哲尼尔森 32 大数据的核心价值是（）。 B 单选题数据交易数据分析数据融合数据处理 33 有序集的中间值或者中间两个值平均是（）。 B 单选题平均值中位数众数以上都不是 34 无监督学习中应用最广的是（）。 B 单选题分类算法聚类算法关联算法时序 35 以下哪种说法是错误的。（） C 单选题 "聚类的部分步骤与分类相似，但度量维度的不同会导致结果不同；" "由于聚类是无监督学习，对聚类的结果没有严格意义的好坏之分" 应通过与理想相似矩阵比较，看分类效果 "对样本数据进行预处理时，对数据进行标准化会影响聚类结果" 36 以下哪种说法不是K-Means算法的优点。（） D 单选题收敛较快迭代次数一般为几次，较神经网络简单中心点的个数，通常值是在3-5个之间算法可能收敛到局部最优点 37 以下关于K-Means算法错误的是（）。 D 单选题 K值无法预先判断，只适用于球形类的形状的聚类算法可能收敛到局部最优点算法对极值点及噪点较为敏感中心点的个数，通常值是在8-10个之间 38 满足最小支持度阈值（minsup）的所有项集称为（）。 C 单选题项项集频繁项集频繁K项集 39 "将巧克力藏在不透明的容器里，将无花果、开心果等健康零食放在透明玻璃罐里。7周内职员少摄入310万卡路里。这属于（）的案例。" A 单选题关联规则聚类规则分类规则不能确定 40 "（）图形主要用于表示一个样本中各组成部分的数据占全部数据的比例，多用于研究结构性问题。" A 单选题饼图条形图折线图堆积图 41 以下哪些是制作条形图时的错误做法（）。 D 单选题 "不要让直条太窄，否则会让读者的视线集中在两直条间大片的空白处，直条的宽度应当约为条间距的两倍" 不要用太粗的网格线和三维透视图，这样会遮掩数据并转移读者对数据的注意力进行比较时，不要用刻度线和网格线，这样会使水平直条的相对长度更加难以辨别直条应当由最大值排到最小值，特定的直条可用不同的透明度予以强调。 42 关于相关关系有误的是（）。 B 单选题按相关的程度分为完全相关、不完全相关和不相关按相关的特点分为单相关和多相关按相关的方向分为正相关和负相关按相关的形式分为线性相关和非线性相关。 43 以下哪项不是描述数据离散趋势的常见指标。（） D 单选题极差方差/标准差四分位数间距变异系数 44 银行根据客户以往贷款记录情况，将客户分为低风险客户和高风险客户。对一个新来的申请者，银行计算风险，决定接受或拒绝该申请。这属于（）算法的应用。 A 单选题分类聚类关联回归 45 分析影响变压器正常运行的因素，预测变压器是否有故障，若有故障，故障为放电故障、过热故障、短路故障等的哪一种。这属于（）算法的应用。 A 单选题分类聚类关联回归 46 神经网络是（）算法的一种。 A 单选题分类聚类关联回归 47 关于数据分析报告错误的是（）。 C 单选题展示分析结果验证分析质量展示分析过程提供决策依据 48 日常数据通报型报告的特点错误的是（）。 D 单选题进度性规范性时效性全面性 49 常用的分箱方法错误的是（）。 C 单选题等深分箱法等宽分箱法等距分箱法用户自定义区间法 50 关于相关性rA,B说法错误的是（）。 D 单选题 rA,B>0,正相关。A随B的值得增大而增大 rA,B=0,不相关。AB无关 rA,B<0,负相关。A随B的值得增大而减少不能单纯依据rA,B<0确定AB相关性 51 在数据安全及处理效率方面，不适宜大数据分析的软件是（）。 D 单选题 SAS Stata MatLab SPSS 52 关于中位数描述错误的是（）。 D 单选题 "在有极端数值出现时，中位数作为分析现象中集中趋势的数值，比平均数更有代表性" "主要用于顺序数据，也可用数值型数据，但不能用于分类数据" 各变量值与中位数的离差绝对值之和最小中位数一般与算数平均值接近 53 对各变量值的连乘积开项数次方根的平均数是（）。 B 单选题平方平均数几何平均数算术平均数 D调和平均数 54 以下对众数的说法中，不对的是（）。 A 单选题众数是出现的次数众数是一组数据中出现次数最多的数据数一组数据中的众数可能不存在 D一组数据中可能存在多个众数 55 将总体分成均衡的几个部分，然后按照预先定出的规则，从每一部分抽取一个个体，得到所需要的样本，这种抽样方法叫做（）。 D 单选题随机抽样分层抽样整群抽样系统抽样 56 定义问题时通常使用以下哪种方法。（） B 单选题波特五力竞争分析 5W2H分析法描述性统计分析决策树 57 以下哪个不属于波特五力竞争分析模型的内容。（） C 单选题潜在竞争者威胁替代品威胁企业外部的机会供应商议价能力 58 下列属于推断性统计分析的方法是（）。 D 单选题大数定律中心极限定理相关分析回归分析 59 一元回归分析与多元回归分析的主要区别是（）。 B 单选题因变量个数不同建立回归模型的计算量不同回归分析原理不同回归分析步骤不同 60 用于展示文本信息出现频率比较高的关键词的图形是（）。 A 单选题词云图气泡图热力图散点图 61 马斯洛需求理论将人的需求从低到高依次排序是（）。 D 单选题 "生理需求安全需求社交需求自我实现需求尊重需求" "生理需求安全需求尊重需求社交需求自我实现需求" "安全需求生理需求尊重需求自我实现需求社交需求" "生理需求安全需求社交需求尊重需求自我实现需求" 62 "分类通常会把模型数据集拆分成两个部分，其中一个部分用来评估模型好与不好，这个部分叫做（）。" B 单选题训练集测试集已知数据未知数据 63 下列不属于非平稳时间序列的确定性因素是（）。 A 单选题规则变动长期趋势季节变动循环变动 64 时间序列模型不能应用到以下哪种情况。（） D 单选题系统描述预测未来决策和控制行业分析 65 以下不属于时间序列平滑法预测的方法是（）。 B 单选题移动平均法 ARIMA模型指数平滑法 Winter预测法 66 以下不属于随机森林算法特点的是（）。 C 单选题能处理比较高维的数据模型的泛化能力强模型的运行速度不快有很强的抗干扰能力 67 以下不属于消费者购买行为分析的产品因素的是（）。 B 单选题便利信息偏好信息价格信息评价信息 68 显著性检验中的P值小于多少时，可以认定为绝对显著相关。（） C 单选题 1 0.05 0.01 0.001 69 以下哪个不属于数据分析报告的开篇部分。（） A 单选题索引前言目录标题 70 以下哪个部分不是一篇数据分析报告必须有的。（） D 单选题标题正文结论与建议附录 71 用定期数据分析报表作为依据的反映计划执行情况的数据分析报告是（）。 C 单选题专题分析报告综合分析报告日常数据通报实时运营报告 72 关于MapReduce的说法正确的是（）。 D 单选题 MapReduce1.0用YARN框架来进行资源调度的 MapReduce是基于内存计算的框架 MapReduce是分布式文件存储系统 "MapReduce1.0既是一个计算框架又是一个资源调度框架" 73 关于Hadoop MapReduce 分片（spit)概念，下列说法不正确的是（）。 D 单选题 Hadoop为每个split创建一个Map任务 split 的多少决定了Map任务的数目 "大多数情况下，理想的分片大小是一个HDFS块对应一个spit" split 是一个物理概念 74 Hadoop组件在企业应用中，能用于数据挖掘的产品有（）。 C 单选题 Hive Pig Mahout Hbase 75 在Spark生态组件中，哪个产品可用于基于实时数据流的数据处理（）。 C 单选题 Spark Core Spark Sql Spark Streaming MLlib 76 请问以下哪个命令组成是错误的？ B 单选题 sbin/stop-dfs.sh sbin/hdfs dfsadmin -report bin/hadoop namenode -format bin/hadoop fs -cat /hadoopdata/my.txt 77 以下哪种不是Hive支持的数据类型？ D 单选题 Struct Int Map Long 78 Spark 原生开发语言是（）。 A 单选题 Scala Java PyPhtthon R语言 79 "关于MapReduce Shuffle过程合并（combine）操作，两个健值对<”a”,1>和<“a”,1>经过合并操作结果为（）。" A 单选题 <“a”,2> <“a”,<1,1>> <“a,a”,2> <“a,a”,<1,1>> 80 下列关于网络用户行为的说法中，错误的是（）。 C 单选题网络公司能够捕捉到用户在其网站上的所有行为 "用户离散的交互痕迹能够为企业提升服务质量提供参考" 数字轨迹用完即自动删除用户的隐私安全很难得以规范保护 81 关于HBase shell命令，哪个命令是使表无效。（） B 单选题 alert disable drop 以上都不是 82 Hive中的数据类型，下面说正确的是（）。 D 单选题 TINYINT，1个字节（8位）有符号整数 SMALLINT，2个字节（16位）有符号整数 INT，4个字节（32位）有符号整数以上都正确 83 关于MapReduce优点，下列说法不正确的是（）。 D 单选题高容错性适合PB级以上海量数据的离线处理良好的扩展性适合做实时计算 84 Hadoop MapReduce 支持多种语言编程，下列说法不正确的是（）。 D 单选题可以用JAVA语言编写MapReduce应用程序可以用C/C++语言编写MapReduce应用程序可以用Python语言编写MapReduce应用程序可以用javascript语言编写MapReduce应用程序 85 在Spark生态组件中，哪个产品可用于复杂的批量数据处理。（） A 单选题 Spark Core Spark Sql Spark Streaming MLlib 86 HBase表中每个cell的多版本是通过（）表示的。 A 单选题 timestamp rowkey blockid cellid 87 "下列国家的大数据发展行动中，集中体现“重视基础、首都先行” 的国家是（）。" D 单选题美国日本中国韩国 88 下列关于计算机存储容量单位的说法中，错误的是（）。 C 单选题 1KB＜1MB＜1GB 基本单位是字节（Byte）一个汉字需要一个字节的存储空间一个字节能够容纳一个英文字符， 89 Hadoop组件在企业应用中，能用于大数据集实时查询的产品有（）。 D 单选题 Hive Pig Mahout Hbase 90 在Spark生态组件中，哪个产品可用于基于历史数据的交互式查询。（） B 单选题 Spark Core Spark Sql Spark Streaming MLlib 91 在Hadoop生态组件中，哪个产品可用于复杂的批量数据处理。（） A 单选题 MapReduce、Hive Impala Storm Mahout 92 下面关于使用hive的描述中不正确的是？ D 单选题 "hive中的join查询只支持等值链接，不支持非等值连接" hive的表一共有两种类型，内部表和外部表 hive默认仓库路径为/user/hive/warehouse/ hive支持数据删除和修改 93 关于HBase下面说法正确的是（）。 D 单选题 "HBase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列" "每个值是一个未经解释的字符串，没有数据类型，程序员要自己去对它进" "用户在表中存储数据，每一行都有一个可排序的行键和任意多的列" 以上说法都正确 94 万维网之父是（）。 C 单选题彼得· 德鲁克舍恩伯格蒂姆· 伯纳斯－李斯科特· 布朗 95 BIRCH 是一种（）。 B 单选题分类器聚类算法关联分析算法特征选择算法 96 数据挖掘算法中，下列关于聚类的说法中，错误的是（）。 B 单选题 "不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别" 要求同类数据的内容相似度尽可能小要求不同类数据的内容相似度尽可能小 "与分类挖掘技术相似的是,都是要对数据进行分类处理" 97 为什么DBSCAN 算法难以有效处理高维数据。（） D 单选题数据的形状太复杂簇的大小未知噪声点过多开销过大 98 ROC曲线是验证模型的常用方法，曲线越凸向哪个角，代表模型效果越理想？（） A 单选题左上角右上角左下角右下角 99 贝叶斯决策是根据（）进行决策的一种方法。 D 单选题极大似然概率先验概率边际概率后验概率 100 "簇评估的作用有（）。①确定数据集的聚类趋势。②确定正确的簇个数。③比较两个簇集，确定那个更好。④不引用附加信息，评估聚类分析结果对数据拟合情况" D 单选题 ①② ②③④ ①②③ ①②③④ 101 存在关联规则为 A → B，此规则的confidence为 80%，则代表（）。 C 单选题买 B 商品的顾客中,有 80%的顾客会同时购买 A 同时购买 A,B 两商品的顾客,占所有顾客的 80% 买 A 商品的顾客中,有 80%的顾客会同时购买 B "两商品 A,B 在交易数据库中同时被购买的机率为80%" 102 对 Apriori 算法，下列选项中表述有误的是（）。 C 单选题 Apriori 算法是关联分析中最常用的算法之一。 "应用 Apriori 算法时,需要先设定模型的最小支持度、最小置信度等阈值。" "应用 Apriori 算法时,输入的数据可以是连续型数据也可以是离散型数据。" "Apriori 算法扫描数据库的次数依赖于最大频繁项集中项的数量。" 103 关于逻辑回归 (Logistic regrssion)因变量和自变量的说法中，正确的是（）。 B 单选题逻辑回归的因变量为数值变量逻辑回归的因变量为定性变量逻辑回归的自变量是定性变量逻辑回归的因变量只能有两种取值 104 基于规则的分类器有Aprior、随机森林，还有（）。 A 单选题 C4.5 KNN Naive Bayes ANN 105 假设检验中显著性水平是（）。 B 单选题推断时犯取伪错误的概率推断时取伪弃真的概率正确推断的概率是推断的可信度 106 将复杂的通讯地址简化成东、南、西、北、中五个类别，是在（）进行？ B 单选题数据正规化数据一般化数据离散化数据整合 107 矩估计的基本原理是（）。 A 单选题用样本矩估计总体矩使得似然函数达到最小小概率事件在一次试验中是不可能发生的使得似然函数达到最大 108 缺失数据（Null Value）的具体处理方法有很多种，下列哪种方法可得到较准确的结果？（） B 单选题填入一个通用的常数值,例如填入 " 未知 /Unknown 把填补遗缺值的问题当作是分类或预测的问题填入该属性的整体平均值填入该属性的整体中位数 109 使用多个分类器的预测来提高分类准确率的技术称为（）。 A 单选题集成 (ensemble) 聚集 (aggregate) 合并 (combination) 投票 (voting) 110 "数据挖掘分析中将原始数据分为训练数据集和测试数据集两部分，其中训练数据集的作用是（）。" C 单选题用于比较不同模型的预测准确度用于对模型的效果进行无偏的评估用于构造预测模型用于选择模型 111 统计图形中，常用于检查异常值的是（）。 B 单选题 Q-Q图箱线图帕累托图气泡图 112 "下表为一交易数据，请问 a → c 的支持度(Support)为（）。TID ItemsBought 1 a,b,c2 a,c3 a,e4 b,e,g" B 单选题 0.75 0.5 1 0.66600000000000000 113 下列有关回归分析的说法，错误的是（）。 D 单选题 "回归分析的变量之间要有实际意义,不能把毫无关联的两种现象随意进行回归分析, 要结合专业知识对两事物之间是否存在因果关系作出合理解释和结论。" 在进行线性回归分析进行的数据准备的时候,要求因变量 y 和自变量 x 都是符合总体正态的随机变量。回归直线不要随意外延所有非线性回归都可以转化为线性回归 114 "小王养了一头猪和一只鸡，一天，猪问鸡：“主人去哪里了”，猪含泪答道：“去买粉条了”。鸡很同情的说：“老弟，来世再见。”以上对话体现了数据分析方法中的（）。" A 单选题关联自然语言处理聚类文本挖掘 115 "已知 α={a, b, d}是满足最小支持度的频繁项集，若不考虑置信度，由α 可产生关联规则的数量为（）。" D 单选题 3 4 5 6 116 以下表述错误的是（）。 C 单选题冗余属性不会对决策树的准确率造成不利的影响子树可能在决策树中重复多次决策树算法对于噪声的干扰非常敏感寻找最佳决策树是 NP 完全问题 117 以下哪一项属于时间序列可以解决的问题？（） B 单选题信用卡发卡银行发掘出的潜在的卡奴基金经理人针对某股票做出未来价格预测移动公司将用户区分为数个群体以上均不是 118 以下算法中，不属于基于原型的聚类算法的是（）。 D 单选题 EM算法模糊 C 均值 SOM CLIQUE 119 以下有关数据清洗的表述中，正确的是（）。 C 单选题 "运用验证数据集中变量的统计量对训练集中的变量进行数据清洗" "运用验证数据集中变量的统计量对验证集中的变量进行数据清洗" "运用训练数据集中变量的统计量对验证集中的变量进行数据清洗" 以上均不对 120 以下针对缺失值的处理方法中，当一个连续变量缺失值超过85%，则哪种最合理？（） B 单选题直接使用该变量 "根据是否缺失,生成指示变量,仅使用指示变量作为解释变量" 使用多重插补的方法进行缺失值填补直接删除该变量 121 "在建立线性回归 (Linear Regression) 之前我们可以利用何种方法挑选重要属性，以降低模型的复杂度？（）" A 单选题皮尔森相关系数卡方检定 T-检定 Z-Score 122 "在做前期样本规划时，训练集 (Train) 、验证集 (Validation) 和检验集(Test) 样本量分配方案哪个比较适合？（）" D 单选题训练 50%,验证 0%,检验 50% 训练 100%,验证 0%,检验 0% 训练 0%,验证 100%,检验 0% 训练 60%,验证 30%,检验 10% 123 "字段cost 的最大最小值分别是 1200元和 9800元。利用最大-最小规范化的方法将属性的值映射到0至 1的范围内。则cost值为 7360元将被转化为（）。" D 单选题 0.751 0.163 0.457 0.716 124 关于Hadoop单机模式和伪分布式模式的说法正确的是（）。 D 单选题两者都起守护进程，且守护进程运行在一台机器上单机模式不使用HDFS，但加载守护进程两者都不与守护进程交互，避免复杂性 "后者比前者增加了HDFS输入输出以及可检查内存使用情况" 125 下列关于Hadoop API的说法错误的是（）。 A 单选题 Hadoop的API只适用于HDFS文件系统 "Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的" FileStatus对象存储文件和目录的元数据 "FSDataInputStream是java.io.DataInputStream的子类" 126 关于MapReduce框架中一个作业的reduce任务数，下列说法正确的是（）。 C 单选题由自定义的Partitioner来确定是分块总数目的一半 "可以由用户来自定义，通过JobConf.setNumReducetTask(int)来设定一个作业中reduce的任务数目" 由MapReduce随机确定其数目 127 HBase表中每个cell的多版本是通过（）表示的？ A 单选题 timestamp rowkey blockid cellid 128 Mac OS 系统的开发者是（）。 C 单选题微软公司惠普公司苹果公司 IBM 公司 129 HBase依赖（）技术框架提供消息通信机制。 A 单选题 Zookeeper Chubby RPC Socket 130 "某公司的总会计师决定用决策模型应对不确定性问题。目前，公司有两种方案可供选择，与另一跨国公司联合投资或不联合投资。总会计师提供了以下信息:方案 1:联合投资的结果和概率:成功概率为 60%，投资成本为1200万元，投资成功的现金流为 2000万元，投资不成功的现金流为 200万元，其他成本为 0元，至此时已发生的成本为120万元。方案 2:不联合投资的结果和概率:至此时已发生的成本为 120万元，其他成本为 500000元。下列哪项分别正确地反映了联合投资与不联合投资的期望值?()" C 单选题 800000元和-1700000元 -700000元和-500000元 800000元和-500000元 -700000元和-1700000元 131 以下关于DBSCAN算法说法错误的是（）。 D 单选题 "如果样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差；" 如果样本集较大时，聚类收敛时间较长； "调参相对复杂，不同的参数组合对最后的聚类效果有较大影响。" 聚类结果可能有偏倚. 132 "（）表示在先决条件X发生的情况下，由关联规则“X→Y”推出Y的概率。即在含有X的项集中，含有Y的可能性。" A 单选题置信度支持度关联度以上都不是 133 找出这组数据：23、29、20、32、24、21、33、25 的中位数。（） B 单选题 23 24 27 29 134 17、19、22、24、25、28、34这组数的四分位差是（）。 C 单选题 24 12 9 D 17 135 以下不能进行系统日志数据采集的工具是（）。 B 单选题 Hadoop Python Scribe Flume 136 以下不属于分类模型评估中基于比率维度的指标是（）。 C 单选题 KS值特异性 Kappa统计量 Lift值 137 分类模型评估指标呈现中，表示用了模型跟不用模型之间的差异的曲线叫做（）。 B 单选题 ROC曲线 Lift曲线 KS曲线捕获率曲线 138 "如果我们现有一个安装2.6.5版本的hadoop集群，在不修改默认配置的情况下存储200个每个200M的文本文件，请问最终会在集群中产生多少个数据块（包括副本）" D 单选题 200 40000 400 1200 139 以下关于Hive操作描述不正确的是（）。 D 单选题 "Hive 是一个建立在hadoop文件系统上的数据仓库架构，可以用其对HDFS上" Hive依赖于MapReduce 处理数据 "Hive的加载数据时候，可以用local进行修饰，表示从某个本地目录下加载数据" Hive一般可以用于实时的查询分析 140 "倒传递神经网络（BP 神经网络）的训练顺序是什么（1:调整权重 ; 2:计算误差值 ;3:利用随机的权重产生输出的结果）（）。" D 单选题 231 312 213 321 141 "DBSCAN 算法的过程是（）。① 删除噪声点。② 每组连通的核心点形成一个簇。③ 将所有点标记为核心点、边界点和噪声点。④ 将每个边界点指派到一个与之关联的核心点的簇中。⑤ 为距离在 Eps 之内的所有核心点之间赋予一条边。" B 单选题 ①②④⑤③ ③①⑤②④ ③①②④⑤ ①④⑤②③ 142 关于数据挖掘的方法论 CRISP-DM 说法正确的是（）。 B 单选题 "这是 SPSS 公司,Daimler Chrysler 提出的数据挖掘流程" "主要分为六步,业务理解,数据理解,数据准备,模型搭建,模型评估与模型发布" 该方法论已经成功的在 SAS EM 中进行了实施 "这六个过程有严格的前后顺序, 分析过程中不能逆转或者跳转" 143 "人工神经网络（ANN）是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。下列选项中，有关人工神经网络的描述不正确的是（）。" A 单选题神经网络对训练数据中的噪声非常鲁棒可以处理冗余特征训练 ANN 是一个很耗时的过程至少含有一个隐藏层的多层神经网络 144 为什么要在类神经网络中计算误差值？（） C 单选题调整输入值调整隐藏层个数调整权重(Weight) 调整真实值 145 下列选项中，哪个是对分类器效果验证指标中准确率的正确表述。（） C 单选题预测为正的数据在总数据中的比例预测正确的数据在总数据中的比例预测为正的数据中实际为正的数据所占比例实际为正的数据中被预测为正的数据所占比例 146 下列有关 C4.5 算法的说法中不正确的是（）。 A 单选题每个节点的分支度只能为 2 使用 gain ratio 作为节点分割的依据可以处理数值型态的字段可以处理空值的字段 147 以下对最近邻分类算法（KNN）的说法错误的是（）。 C 单选题 "它使用具体的训练实例进行预测,不必维护源自数据的模型" 分类一个测试样例开销很大最近邻分类器基于全局信息进行预测可以生产任意形状的决策边界 148 以下有关聚类算法中 K-means和DBSCAN说法错误的是（）。 A 单选题 "K 均值会丢弃被它识别为噪声的对象,而 DBSCAN一般聚类所有对象。" "K 均值使用簇的基于原型的概念,而 DBSCAN 使用基于密度的概念。" "K 均值很难处理非球形的簇和不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇。" "K 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是 DBSCAN 会合并有重叠的簇。" 149 以下有关主成分分析，正确的是（）。 A 单选题 "保留多少个主成分取决于累计方差在方差总和中所占百分比" 一般选择 50%以上选择前两个就可以选择的数目和变量的个数一致 150 在 ID3算法中信息增益是指（）。 D 单选题信息的溢出程度信息的增加效益熵增加的程度最大熵减少的程度最大 151 指数平滑法中，下面哪个指标可以反映对时间序列资料的修正程度？（） A 单选题平滑常数季节指数跨越期指数平滑数初始值 152 Hbase中的Compaction过程发生在什么时候？（） C 单选题 MemStore发生flush的时候 HLog大小达到一定阈值的时候 StoreFile文件个数达到一定阈值的时候 HFile写入HDFS的时候 153 Hbase中以下对于LSM的描述正确的是（）。 A 单选题 LSM的读操作和写操作是独立 LSM的读操作和写操作不是独立 LSM并不区分读和写 LSM中读写是同一种操作 154 如果要给队列QueueA设置容量为30%，应该设置哪个参数（）？ C 单选题 "yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent" "yarn.scheduler.capacity.root.QueueD.user-limit-factor" yarn.scheduler.capacity.root.QueueA.capacity yarn.scheduler.capacity.root.QueueA.state 155 Spark是用以下哪种编程语言实现的（）？ D 单选题 C C++ JAVA Scala 156 关于Hive中的桶说法不正确的是（）？ A 单选题每个桶是一个目录建表时指定桶个数，桶内可排序数据按照某个字段的值Hash后放入某个桶中对于数据抽样、特定join的优化很有意义 157 哪一项不属于Hive的流控特性（）？ B 单选题已经建立的总连接数阈值控制某个特定用户已经建立的连接数阈值控制每个用户已经建立的连接数阈值控制单位时间内所建立的连接数阈值控制 158 下面对Streaming中基础概念说法不正确的是（）？ C 单选题 Topology是streaming中运行的一个实时应用程序 Nimbus负责资源分配和任务调度 "Spout是在一个topology中接受数据然后执行处理的组件" Worker运行具体处理组件逻辑的进程 159 Flume支持多级级联的sink类型是（）？ B 单选题 hdfs sink avro sink file roll sink hbase sink 160 关于Kafka的基本概念描述错误的是（）？ C 单选题 Kafka集群包含一个或多个服务实例，这些服务实例被称为Broker 每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic 每个Consumer属于多个的Consumer Group "Kafka将Topic分成一个或者多个Partition，每个Partition在物理上对应一个文件夹，该文件夹下存储这个Partition的所有消息" 161 如下哪项不是ZooKeeper的关键特性（）？ B 单选题最终一致性延时性可靠性等待无关性 162 下列选项中无法通过大数据技术实现的是?( ) A 单选题商业模式发现信用评估商品推荐运营分析 163 "假设每个用户最低资源保障设置为yarn，scheduler，capacity,root,QueueAminimum-user-limit-percent=24，则以下说法错误的是？( )" D 单选题 "第3个用户提交任务时，每个用户最多获得33.33%的资源" "第2个用户提交住务时,每个用户最多获得50%的资源" "第4个用户提交任务时,每个用户最多获得25%的资源" "第5个用户提交任务时,每个用户最多获得20%的资源" 164 Spark自带的资源管理框架是?( ) A 单选题 Standal one Mesos YARN Docker 165 关于RDD,下列说法错误的是?( ) B 单选题 RDD具有血统机制(Lineage) RDD默认存储在磁盘 RD是一个只读的,可分区的分布式数据集 RD是Spark对基础数据的抽象 166 关于Hive 在Fusioninsight HD 中的架构描述错误的是?( ) A 单选题 "只要有一个Hiveserver 不可用,整个Hive 集群便不可用。" "Motastore 用于提供元数据服务，依赖于DBService" "在同一时间点,HiveServer 只要一个处于Active 状态,另一个则处于Standby 状态" "Hiveserver 负责接收客户端请求，解析，执行 HQL命令并返回查询结果" 167 大数据时代，数据使用的关键是（） A 单选题数据收集数据存储数据分析数据再利用 168 下列关于数据交易市场的说法中，错误的是（）。 B 单选题数据交易市场是大数据产业发展到一定程度的产物商业化的数据交易活动催生了多方参与的第三方数据交易市场 "数据交易市场通过生产数据、研发和分析数据，为数据交易提供帮助" 数据交易市场是大数据资源化的必然产物 169 在Fusioninsiehtaanarer 界面中,对Loader 的操作不包括下列哪个选项?( ) A 单选题切换Loader 主备节点启动Loader 实例配置Loader 参数查看Loader 服务状态 170 创建Loader 作业中,可以在以下哪个步骤中设置过滤器类型?( ) A 单选题输入设置转换基本信息输出 171 kafka-cluster mirroring 工具可以实现以下那些功能?( ) A 单选题 kafka 集群数据同步方案 kafka 单集群内数据备份 kafka 单集群内数据恢复以全部不对 172 以下关于Kafka Partition 偏移量的描述不正确的是?() D 单选题每条消息在文件中的位置称为offset(偏移量) 消费者通过( offset/.partition. topic)跟踪记录唯一标记一条消息 Offset 是一个String 型字符串 173 RDD 有Transformation 和Action 算子,下列属于Action 算子的是?( ) B 单选题 map saveASTexFile Filter reducebykey 174 以下关于Hive SQL 基本操作描述正确的是?( ) D 单选题创建外部表必须要指定Location 信息 "创建外部表使用external 关键字,创建普通表需要指定internal 关键字" 加教数据到Hive 时源数据必列是HDFS 的一个路径创建表时可以指定列分割符 175 "在Zookeeper 和Yarn 的协同工作中,当Active Resourcemanager 产生故障时, StandbyResourcemanager 会从以下哪些目录中获取Application 相关信息?( )" B 单选题 metastore Statestore Statestore Warehouse 176 HDFS 的副本放置策略中，同一机架不同的服务器之间的距离是( ) B 单选题 3 2 1 4 177 Zookeeper 的Scheme 认证方式不包括以下哪项?() B 单选题 digest sasl auth world 178 下列选项中适合Mapreduce 的场景( ) D 单选题实时交互计算迭代计算流式计算离线计算 179 下列哪个命令是从HDFS 下载日录/文件到本地的?( ) C 单选题 dfs -put dfs -cat dfs -get dfs -mkdir 180 Hbase 的主Master 是如何选举的? C 单选题由Regionserver 进行裁决 Master 为双主模式,不需要进行裁决通过Zookeeper 进行裁决随机选举 181 关于Hive 与Hadoop 其他组件的关系。以下描述错误的是?( ) D 单选题 Hive 最终将数据存储在HDFS 中 Hive 是Hadoop 平台的数据仓库工具 HQL 可以通过Mapreduce 执行任务 Hive 对Hbase 有强依赖 182 Hbase 的Region 是由哪个服务进程来管理的?( ) A 单选题 HRegionserver Zookeeper HMaster DataNode 183 以下关于Flink 关键特性描述不正确的是? A 单选题 Sparkstreaming 与Flink 相比,时延更低 "F1ink 流式处理引擎能够同时提供支持流处理和批处理应用的功能" "与Fusioninght HD 中的Streaming 相比,FIink 具有更高的吞吐量" checkpoint 实现了Flink 的容错 184 Kafka Cluster Mirroring 工具可以实现以下哪项功能? A 单选题 Kafka 跨集群数据同步方式 Kafka 单集群内数据备份 Kafka 单集群内数据恢复以上全不正确 185 Fusion insight 产品中,关乎Kafka 说法不正确的是? B 单选题 Kafka 强依赖Zookeeper Kafka 的服务端可以产生消息 Kafka 的部署的实例个数不得小于 2 "Consumer 作为Kafka 的客户端角色专门进行消息的消费" 186 为了提高Kafka 的容错性, Kafka 支持Partition 的复制策略,以下关于Leader Partition和Follow Partition 的描述错误的是( ) C 单选题 "Kafka 针对Partition 的复制需要选出一个Leader。由该Leader 负责Partition 的读写操作。其他的副本节点只是负责数据同步" "由于Leader Server 承載了全部的请求压力。因此从集群的整体考虑, Kafka 会将Leader.均衡的分散在每个实例上,来确保数据均衡" "一个Kafka 集群各个节点间不可能互为Leader 和Flower" 如果Leader 失效。那么将会有其他fol lower 来接管(成为新的Leader) 187 下列关于Flink barrier 描述错误的是? C 单选题 "一个barrier 将本周期快照的数据与下ー个周期快照的数据分隔开来" barrier 是F1ink 快照的核心在插入barrier 的时候,会暂时阻断数据流 "barrier 周期性插入到数据流中,并作为数湉流的一部分随之流动" 188 关于fusion Insight HD Streaming 的Supervisor 描述正确的是? B 单选题 "Supervisor 是在Topology 中接受数据然后执行处理的组件" "Supervisor 负责接受Nimbus 分配的任务,启动和停止属于自己管理的Worker 进程" Supervisor 负责资源分配和任务调度 supervisor 是运行具体处理逻辑的过程 189 "Hadoopz中yarn.scheduler.capacity. root. Queueafinim. m-user-limit-percent设置为 50,下面说法错误的是?" D 单选题 "一个用户提交任务,可以使用Queue 的 100%的资源。" "如果Queue 中已经有 2 个用户的任务运行,这时第3 个用户提交的任务需要等待释放资源。" Queue 中必须保障毎个用户至少得到 50%的资源 Queuea 中的每个用户最多只能获得 50%的资源 190 Streaming 主要通过zookeeper 提供以下的哪项实现事件侦听? B 单选题分布式锁机制 Watcher Checkpoint ACK 191 Zookeeper 在分布式应用中主要的作用不包括以下哪些选项？ C 单选题选举Master 节点保证各节点上数据的分配集群资源存储及群中 192 HDFS 中Name node 的主备仲裁,是由哪个组件控制的( ) D 单选题 HDFS Client Nodemanager Resourcemanager Zookeeper Failover Controller 193 安装fusioninsight HD 的Streaming 组件是, Nimbus 角色要求安装几个节点? C 单选题 4 3 2 1 194 Fusioninsight HD 系统审计日志不可以记录下面哪些操作? C 单选题手动清除告警启停服务实例查询历史监控除服务实例 195 Flink 的数据转换操作在以下哪些环节中完成( )? B 单选题 channel Transformation sink source 196 Fusioninsight Manager 用户权限管理不支持哪个配置? D 单选题给用户配置角色给用户组配置角色给角色配置权限给用户组配置权限 197 以下哪个不属于Hadoop 中Mapreduce 组件的特点? C 单选题高容错良好的扩展性实时计算易于编程 198 Hbase 的某张表的Rowkey 划分splitkey 为 9.E.a.2.请问表里面有几个Region? C 单选题 6 3 5 4 199 为了保障流应用的快照存储的可靠性,快照主要存储在哪里? D 单选题 jobmanager 的内存中可靠性高的单机数据库中本地文件系统中 hdfs 中 200 在fusionlnsigh 产品中,关于kafka 的 topic.以下描述不正确的是? B 单选题 topic 的partition 数量可以创建时配置每个topic 只能被分成一个partition 区 "每条发布到kafka 的消息都有一个类别,这个类别被称为topic.也可以理解为一个存储消息的队列" "每个partition 在存储层面对应一个 1og 文件,10g文件中记录了所有的消息数据" 201 Kafka 集群在运行期间,直接依赖于下面哪些组件? B 单选题 spark zookeeper hdfs hbase 202 关于fusioninsight master 界面hive 日志收集的描述中,哪个不对? C 单选题 "可指定实例进行日志收集，比如指定收集metastore的日志" 可指定节点ip 进行下载某个ip 的日志 "可指定特定用户进行日志收集，例如仅下载用户的日志" "可指定时间进行日志收集，如：只收集 2016-1-1到 20161-10 的日志" 203 fusioninsight 对于管理操作,下列错误的是? C 单选题可对服务进行启停重启可以添加和卸载服务常用服务隐藏或显示可查看服务的当前状态 204 在Webhcat 架构中,用户能够通过安全的 HTTPS 协议执行以下哪些操作? D 单选题执行Hive DDL 操作运行Mapreduce 任务运行Hive HOL 任务以上全都正确 205 在Flink 技术架构中,以下哪项是流处理和批处理的计算引擎? B 单选题 Standalone Runtime Flink Core Datasteam 206 spark 的核心模块是 B 单选题 spark streaming spark core mapreduce spark sql 207 hbase 的底层数据以()的形式存在的? A 单选题 keyvalue 列存储行存储实时存储 208 Kafka Cluster Mirroring 工具可以实现以下哪些功能? A 单选题 Kafka 数据同步方案 Kafka 单集群内数据备份 Kafka 但集群内数据恢复以上全不正确 209 硬件故障被认为是常态,为了解决这个问题,HDFS 设计了副本机制。默认情况下HDFS 会存( )份? A 单选题 3 5 2 4 210 关于HIVE 的描述不正确的? B 单选题 Hive 最佳使用景是大数据的批处理作业 Hive 可以实现大规模数据集上实现低延迟快速的查询 "Hive 构建在基于静态批处理的Hadoop 之上, Hadoop 通常有较高的延迟并且在作业提交和调度的时候需要大量开销" "Hive 查询操作过程严格遵循Hadoop Mapreduce的作用执行模型,Hive 将用户的HveQL语句通过解释器转换为Mapreduce Hadoop 集群上" 211 Flume 数据采集的过程中,下列选项中对数据进行过滤和修饰的是? C 单选题 Channel Channel selector Interceptor Sink 212 以下关于fusioninsight CTbase 的描述不正确的是? B 单选题 "CThase 的读写数据接口，统一封装了行定义的接口,自动进行冷字段的合并和解析,不需要在应用程序中进行合并和解释" CT HBase 是基于 Hbase 的聚簇表开发框架 CTHbase 提供了一套Webui 进行元数据定义,提供了只管医用的表设计工具,降低表设 CTHbase 的java API 提供一套Hbase连接池管理的接口,内部进行连接共享,减少客户端应用开发难度。 213 YARN 中设置队列Queue的最大使用资源量,需要配置哪个参数? B 单选题 "yarn scheduler capacity. root. Queueaminimum-user-limitmpercent" "yarn. scheduler capacity. root. Queueamaximum-capacity" "yarn. scheduler capacity. root. Queuea,minimum. user-limit-factor" yarn scheduler capacity. root.Queuea/stat 214 以下哪些选项属于Hive 的数据存储模型? ABCD 单选题桶数据库分区表 215 Hive 中的这条命令"ALTER TABLE employee ADD columns( columnl string)."是什么含义? C 单选题创建表删除表添加列修改文件格式 216 下列关于Sparksereaming 和Streaming 比较说法不正确的是? B 单选题 "Sparkstreaming 个微批处理框架,事件需要积累到一定量时才进行处理" Streaming 的执行逻辑是即时启动,运行完后再回收 "Sparkstreaming 的吞吐量大约是Streaming 的 2-5 倍" Spaalstreaming 事件处理时延比Streaming 更高 217 创建Loader 作业时哪个步骤中设置Map 数? A 单选题输出输入设置转换基本信息 218 Kafka 集群中, Kafka 服务端的角色是? A 单选题 Broker Consumer Zookeeper Producer 219 关于Dataset,下列说法不正确的是? D 单选题 Dataset 不需要反序列化就可执行大部分操作 Dataset 是一个由特定域的对象组成的强类型集合 Dataset 与RDD 高度类似,性能比RDD 好 "Dataset 执行sort, filter, shuff1e 登操作需要进行反序列化" 220 "使用Hbase 客户端批量写入 10 条数据,某个Hregionserver 节点上包含该表的 2 个Region,分别为A 和B,10 条数据中有 6 条属于 A,4 条属于B,请问写入这 10 条数据需要向该Hregion Server 发送几次RPC 请求?" D 单选题 10 6 2 1 221 Hive 不适用于以下哪个场景？ D 单选题非实时分析,例如日析数据挖掘,例如用户析,区域展示数据汇总,例如母天,每击数,点击排行实时在线数 222 关于hive建表基本描述正确的是？ C 单选题不可再修改表名可再增加新列创建外部表需要制定external 关键字不可再修改列名 223 Fusioninsight HD 系统中Hive 支持的存储格式包括? D 单选题 Textfile Sequencefile RCFILE Hfile 224 在Flink 的运行流程中,负责申请资源的角色是? B 单选题 Resourcemanager Jobmanager Client Taskmanager 225 在Fuisoninsight HD 中,创建Loader 作业的进行数据转换的正确步骤是? A 单选题输入设置,转换,输出抽取,转换,输出抽取、转换、输出加载,转换,输出加载,转换,抽取 226 Flume 用于收集数据,其传输的数据基本单位是? C 单选题 Split Block Event Packet 227 Fusionninsiget HD 系统中, Flume 数据流在节点内不需要经过哪个组件? C 单选题 Source Sink Topic channel 228 传统数据处理的数据单位? D 单选题 TB EB PB GB 229 哪个命令是删除文件的? C 单选题 dfs -clear dfs -ls dfs -rm dfs -del 230 hadoop 平台中,要查看 Yarn 服务中ー个application 的信息,通常需要使用什么命令? D 单选题 container jar application-attempt Application 231 Hbase 元数据Meta Region/路面信息保存在哪里? B 单选题 Zookeeper Meta 表 Haster Root 表 232 关于hive与传统据仓库的对比,以下描述错误的是? D 单选题 "数据存储独位于数据存储之外,从而解耦合元数据和数据,灵活性高,而传统数据,灵活性低" "Hive 基于HDFS 存储,理论上存储量可无限扩展,而传统数据仓库存储量会有上限" "由于hive 的数据存储在HDFS 中,所以可以保证数据的高容错,高可靠" "由于Hive 基于大数据平台,所以查询效率比传统数据仓库快" 233 YARN的基于标准调度,是对下列选项中的哪个进行标签化? C 单选题 Appmaster Resourcemanager Nodemanager Container 234 对于Hive 中关于普通表和外部表描述不正确的是? C 单选题默认创建普通表删除外部表时,只除外部表数据而不删除元数据 "外部实质是将已存在于 HDFS 上的文件路径跟表关联起来" 删除普通表时,元数据和数据同时被删除 235 在Fusioninsight 产品中,关于创建Kafka 的Topic,以下哪些描述是正确的? C 单选题在创建Kafka 的Topic 时,必须设置Partition 个数 "在创建Kafka 的topic 时,必须设置Partition 副本个数" 设置多副本可以增强Kafka 服务的容灾能力以上全都正确 236 下列选项中,关于Zookeeper 可靠性含义说法正确的是? D 单选题可靠性通过主备部署模式实现可靠性是指更新更新只能成功或失败没有中间状态 "可靠性是指无论哪个server,对外展示的均是同一个视图" "可靠性是指一个消息被一个Server 它将被所有的Server 接受" 237 YARN 中默认的资源调度器是? B 单选题 FIFO 调度器容量调度器 Fair 调度器以上全不是 238 部署Fusioninsight HD 时,同一集群内的Flume Server 节点建议至少部署几个? D 单选题 1 3 4 2 239 Fusioninsight HD 系统中,下面哪个方法不能查看到Loader 作业执行的结果( ) C 单选题通过Loader UI 界面查看通过YARN 任务管理通过Nodemanager 查看通过Manager 的警 240 关于kafka 逍息消费者Consumer读取消息的描述,错误的有? D 单选题 Consumer 使用Offset 来记录读取的位置 "图片中的蓝色框为Kafka 的一个Topic,即可以理解为一个队列,每个格子代表一条消" 生产者产生的消息逐条放到Topic 的末尾消费者从右至左顺序读取消息 241 Fusioninsight HD 中Hbase 默认使用什么组件作为其底层文件存储系统? C 单选题 File Kafka HDFS Memory 242 "在很多小文件场景下, Spark 会起很多Task,当SQL 逻辑中存在Shuffle 操作时,会大大增加hash 分桶数,严重影响性能。 Fusioninsight中,针对小文件的场景通常采用()算子,来对Table 中的小文件生成的partition 进行合并,减少partition 数,从而避免在shuffle 的时候,生成过多的hash 分桶,提升性能?" D 单选题 groupby coalease connect join 243 查看kafka某Topic的partition详细信息时,使用如下那个命令? D 单选题 bin/kakfa-topics sh --create bin/kakfa-topics sh --delete bin/kakfa-topics. sh--list bin/kakfa-topics sh --describe 244 以下关于Zookeeper 关键特性中的原子说法正确的是? B 单选题 "客户端发送的更新会按照他们被发送的顺序进行应用" 更新只能全部完成或失败,不会部分完成一条消息被一个server 接收,将被所有server 接收集群中无论哪台服务器,对外示均是同 245 下列论据中，能够支撑“大数据无所不能”的观点的是（）。 D 单选题互联网金融打破了传统的观念和行为大数据存在泡沫大数据具有非常高的成本个人隐私泄露与信息安全担忧 246 以下哪一项不属手创建Loader作业时必选项? A 单选题优先级名称连接类型 247 为了保证流应用的快照存储的可靠性,快照主要存储在( )? C 单选题本地文件系统中 Jobmanager 的内存中 HDFS 中可靠性高的单机数据库中 248 "如果需要由数据生产者决定数据发送给目标Bolt 的某一个确定的 Task,应选择以下哪种消息发布策略( )?" C 单选题局部字段分组广播分组直接分组全局分组 249 Flink 中的()接口用于流数据处理,()接口用于批处理? C 单选题 Databatch API, Datastream API Stream API, Batch API Datastream API, Dataset API Batch API, Stream API 250 以下关于Zookeeper 的Leader 节点在收到数据变更请求后的读写流程说法正确的是? D 单选题仅写入内存同时写入磁盘和内存先写入内存再写入磁盘先写磁盘再写内存 251 数据仓库的最终目的是（）。 A 单选题收集业务需求开发数据仓库的应用分析建立数据仓库逻辑模型为用户和业务部门提供决策支持 252 关于Kafka 磁盘容量不足的告警,对于可能的原因以下分析不正确的是? C 单选题业务规划不合理,导致数据分配不均,使部分磁盘达到使用率上限数据保存时间配置过长,数据累计达到磁盘使用率上限 Broker 节点故障导致 "用于存储Kafka 数据的磁盘配置(如磁盘数目,磁盘大小等),无法满足当前业务数据流量,导致磁盘使用率达到上限" 253 "Fusioninsight HD 中Loader 从SFTP 服务器导入文件时,不需要做编码转换和数据转换且速度最快的文件类型是以下哪项?" B 单选题 graph-file binary-file text-file sequence-file 254 下面关于Zookeeper 特性的描述错误的是? B 单选题消息更新只能成功或者失败,没有中间状态 Zookeeper 节点数必须为奇数个 "一条消息要被超过半数的Server 接收,它将可以成功写入磁盘" "客户端所发送的更新会按照它们被发送的顺序进行应用" 255 Hbase 中数据存储的文件格式是什么? C 单选题 Hlog Textfile HFIle sequencerlle 256 Hbase 中的Region 是由哪个服务进程来管理的? A 单选题 Hregionserver Zookeeper Master Datanode 257 Kafka 集群在运行期间,直接依赖于下面那些组件? C 单选题 Hbase Spark Zookeeper HDFS 258 "Hive 是基于Hadoop 的数据仓库软件,可以査询和管理 PB 级别的分布式数据。以下关于hive 特性的描述不正确的是?" D 单选题灵活方便的ETL 易用易编程可直接访可HDFS 文件以及Hbase 仅支持mapreducet 计算引擎 259 Spark 是用以下那种编程语言实现的？ D 单选题 C C++ java Scala 260 YARN 中设置队列 Queue 的最大使用资源里，需要配置哪个参数？ D 单选题 yarn.scheduler.capacity.root.QueueA.user-limit- factor "yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent" yarn.scheduler.capacity.root.QueueA.state "yarn.scheduler.capacity.root.QueueA.maxirnum-capacity" 261 Hadoop 系统中关于客户端向 HDFS 文件系统上传文件说法正确的是？ B 单选题 "客户端的文件数据经过 NameNode 传递给DataNode" 客户端将文件分为多个 Bock，根据 DataNode 的地址信息，按顺序写入每一个DataNode 中 "客户端根据 DataNode 的地址信息，按顺序将整个文件写入每一个 DataNode中，然后由 DataNode将文件划分为多个 Block" 客户端只上传数据到一个 DataNode，然后由 Namenode 负责 Bock 复制 262 Hadoop 的 HBase 不适合哪些数据类型的应用场景？ A 单选题大文件应用场景海量数据应用场景高吞吐率应用场景半结构化数据应用场景 263 Hadoop 中 MapReduce 组件擅长处理哪种场景的计算任务？ B 单选题迭代计算离线计算实时交互计算流式计算 264 以下哪类数据不属于半结构化数据？ C 单选题 HTML XML 二维表 JSON 265 "釆用 Flume 传输数据过程中，为了防止因 Flume 进程重启而丢失数据，推荐使用以下哪种channel 类型？" B 单选题 Memory Channels File Channel JDBC Channel HDFS Channel 266 "HBase 中如果发生一个 Region 的 Split，将一个 HFile 文件真正分开到两个Region 的过程发生在以下什么阶段？" C 单选题 Split 过程中 Flush 过程中 Compaction 过程中 HFile 分开过程中 267 Hadoop 平台中 HBase 的 Region 是由哪个服务进程来管理？ C 单选题 HMaster DataNode Region Server Zookeeper 268 Spark 组件中哪个选项不属于 transformation 操作？ D 单选题 Join distinct reduceByKey reduce 269 关于 Hive 与 Hadoop 其他组件的关系，以下描述错误的是？ D 单选题 Hive 最终将数据存储在 HDFs 中 Hive SQL 其本质是执行 MapReduce 任务 Hive 是 Hadoop 平台的数据仓库工具 hive 对 HBase 有强依赖 270 关于 Kafka 磁盘容量不足的告警，对于可能的原因以下分析不正确的是？ D 单选题 "用于存储 Kafka 数据的磁盘配置（如磁盘数目、磁盘大小等），无法满足当前业务数据流里，导致磁盘使用率达到上限" 数据保存时间配置过长，数据累积达到磁盘使用率上限业务规划不合理，导致数据分配不均，使部分盘达到使用率上限 Broker 节点故障导致 271 HBase 的物理存储单元是什么？ B 单选题 Region ColumnFamily Column ROW 272 Hadoop 中哪个模块负责 HDFS 的数据存储？ B 单选题 NameNode DataNode zookeeper JobTraoker 273 Hadoop 平台中启用 YARN 组件的日志聚集功能，需要配置哪个参数？ D 单选题 yarn.nodemanager.local-dirs yarn.nodemanager.log-dirs yarn.acl.enable yarn.log-aggregation-enable 274 加载数据到 Hive 表，哪种方式不正确？ C 单选题直接将本地路径的文件 load 到 Hive 表中将 HDFS 上的文件 load 到 Hive 表中 "Hive 支持 Insert into 单条记录的方法，所以可以直接在命令行插入单条记录" 将其他表的结果集 insert into 到 Hive 表 275 hadoop 系统中 YARN 资源的抽象是用什么表示？ C 单选题内存 CPU Container 磁盘空间 276 Kafka 集群中， Kafka 服务端部署的角色是？ D 单选题 Producer Consumer ZooKeeper Broker 277 Flink 是流计算处理和批处理平台，（）是数据批处理和流处理的核心引擎 D 单选题 Runtime DataStream DataSet FlinkCore 278 下面哪个程序负责 HDFS 数据存储。 C 单选题 NameNode Jobtracker Datanode secondaryNameNode 279 HDFS 中的 block 默认保存几个备份。 A 单选题 3 份 2 份 1 份不确定 280 下面哪个进程负责 MapReduce 任务调度。 B 单选题 NameNode Jobtracker TaskTracker secondaryNameNode 281 HBase是分布式列式存储系统，记录按什么集中存放。 A 单选题列族列行不确定 282 HBase的Region组成中，必须要有以下哪一项。 B 单选题 StoreFile MemStore HFile MetaStore 283 设计分布式数据仓库hive的数据表时，为取样更高效，一般可以对表中的连续字段进行什么操作。 A 单选题分桶分区索引分表 284 "HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？" D 单选题一个map读取64MB，另外一个map读取11MB 128MB 64MB 75MB 285 "HDFS有一个LZO（with index）文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？" A 单选题一个map读取64MB，另外一个map读取11MB 64MB 75MB 128MB 286 如果想要修改集群的备份数量,可以修改下面哪个配置文件? C 单选题 mapred-site.xml core-site.xml hdfs-site.xml hadoop-env.sh 287 Hadoop-2.x集群中的HDFS的默认的副本块的个数是? A 单选题 3 2 1 4 288 以下哪个不是HDFS的守护进程 C 单选题 SecondaryNameNode NameNode MrappMaster/YarnChild DataNode 289 大数据至少为以下哪种存储量级? B 单选题 EB PB TB ZB 290 关于HDFS集群中的DataNode的描述不正确的是? A 单选题一个DataNode上存储的所有数据块可以有相同的存储客户端上传的数据的数据块 DataNode之间可以互相通信 "响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑" 291 MapReduce的Shuffle过程以下中哪个操作是最后做的？ B 单选题排序合并分区溢写 292 下列关于HDFS的描述正确的是? A 单选题 NameNode磁盘元数据不保存Block的位置信息 DataNode通过长连接与NameNode保持通信 HDFS集群支持数据的随机读写 "如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作" 293 一个gzip文件大小75MB，客户端设置Block大小为64MB，请问其占用几个Block？ B 单选题 3 2 4 1 294 如果对HBase表的添加数据记录，可以使用（）命令进行操作。 C 单选题 create get put scan 295 如果需要对HBase表中的数据进行列表查看，可以使用（）命令进行操作。 B 单选题 count scan put get 296 以下更新HBase表中数据的语法，输写正确的是（）。 D 单选题 update user. xiaoming’ set info.age=1 "update ‘users’,’xiaoming’,’info.age’,’29’" put ‘users’,’xiaoming’,’info.age’ put ‘users’,’xiaoming’,’info.age’,’29’ 297 在HBase Shell操作中，请选择以下哪个命令用于删除整行操作（）。 C 单选题 delete from ‘users’.’xiaoming’ delete table from ‘xiaoming’ deleteall ‘users’,’xiaoming’ deleteall ‘xiaoming’ 298 在HBase Shell操作中，可以使用下面哪个命令对数据表进行行数统计（）。 C 单选题 select count(0) from ‘users’ sum ‘users’ count ‘users’ truncate ‘users’ 299 使用JAVA API进行HBase操作，以下命令输写正确的是（）。 B 单选题 HBaseTestCase.get(tablename); HBaseTestCase.get(tablename,’row1’); "HBaseTestCase.delete(tablename,’row1’,’row2’);" "HBaseTestCase.scan(tablename,’row1’,’row2’);" 300 使用JAVA API进行HBase整表扫描操作，以下命令输写正确的是（）。 A 单选题 table.getScanner(scan); table.scan(table); table.get(table).scan(); table.Scanner(get); 301 使用JAVA API进行HBase表数据添加操作，以下命令输写正确的是（）。 C 单选题 HTable.add (new Put(Bytes.toBytes(row)); "HTable.insert(newPut(Bytes.toBytes(row));" HTable.put(new Put(Bytes.toBytes(row)); HTable.update(new Put(Bytes.toBytes(row)); 302 HBase来源于哪篇博文？ C 单选题 The Google File System MapReduce BigTable Chubby 303 HBase依靠（）存储底层数据 A 单选题 HDFS Hadoop Memory MapReduce 304 HBase依赖（）提供消息通信机制 A 单选题 Zookeeper Chubby RPC Socket 305 HBase依赖（）提供强大的计算能力 D 单选题 Zookeeper Chubby RPC MapReduce 306 下面与Zookeeper类似的框架是？ D 单选题 Protobuf Java Kafka Chubby 307 下面与HDFS类似的框架是？ C 单选题 NTFS FAT32 GFS EXT3 308 LSM含义是？ A 单选题日志结构合并树二叉树平衡二叉树长平衡二叉树 309 LSM更能保证哪种操作的性能？ B 单选题读写随机读合并 310 LSM的读操作和写操作是独立的？ A 单选题是。否。 LSM并不区分读和写 LSM中读写是同一种操作 311 LSM结构的数据首先存储在（）。 B 单选题硬盘上内存中磁盘阵列中闪存中 312 HFile数据格式中的Data字段用于（）。 A 单选题存储实际的KeyValue数据存储数据的起点指定字段的长度存储数据块的起点 313 HFile数据格式中的MetaIndex字段用于（）。 D 单选题 Meta块的长度 Meta块的结束点 Meta块数据内容 Meta块的起始点 314 HFile数据格式中的Magic字段用于（）。 A 单选题存储随机数，防止数据损坏存储数据的起点存储数据块的起点指定字段的长度 315 HFile数据格式中的KeyValue数据格式中Value部分是（）。 C 单选题拥有复杂结构的字符串字符串二进制数据压缩数据 316 HBase中的批量加载底层使用（）实现。 A 单选题 MapReduce Hive Coprocessor Bloom Filter 317 一群人中，吃东北大米的占60%，吃原阳大米的占45%，两种均吃的占30% D 单选题 0.82 0.85 0.8 0.75 318 以下选项中，不属于信息时代的定律的是（） A 单选题吉尔德定律摩尔定律麦特卡尔夫定律达律多定律 319 HBase分布式模式最好需要（）个节点？ C 单选题 1 2 3 最少 320 解压.tar.gz结尾的HBase压缩包使用的Linux命令是？ A 单选题 tar -zxvf tar -zx tar -s tar -nf 321 下列不可作为 java 语言标识符的是 D 单选题 a1 $1 _1 11 322 有一段 java 应用程序，它的主类名是 a1，那么保存它的源文件名可以是 A 单选题 a1.java a1.class a1 都对 323 整型数据类型中，需要内存空间最少的是 D 单选题 short long int byte 324 在创建对象时必须？ C 单选题先声明对象，然后才能使用对象 "先声明对象，为对象分配内存空间，然后才能使用对象" "先声明对象，为对象分配内存空间，对对象初始化，然后才能使用对象" 上述说法都对 325 Java中关于父子类描述正确的是 C 单选题 "一个子类可以有多个父类，一个父类也可以有多个子类" "一个子类可以有多个父类，但一个父类只可以有一个子类" "一个子类可以有一个父类，但一个父类可以有多个子类" 上述说法都不对 326 以下哪个方法用于定义线程的执行体？ C 单选题 start() init() run() synchronized() 327 以下标识符中哪项是不合法的 A 单选题 const$ double hello BigMeaninglessName 328 以下哪个关键字可以用来为对象加互斥锁？ D 单选题 transient static serialize synchronized 329 "在 Java中，一个类可同时定义许多同名的方法，这些方法的形式参数个数、类型或顺序各不相同，传回的值也可以不相同。这种面向对象程序的特性称为" C 单选题隐藏覆盖重载 Java 不支持此特性 330 Java application 中的主类需包含 main 方法， main 方法的返回类型是什么？ D 单选题 int float double void 331 下列哪些语句关于 Java内存回收的说明是正确的 ? B 单选题程序员必须创建一个线程来释放内存内存回收程序负责释放无用内存内存回收程序允许程序员直接释放内存内存回收程序可以在指定的时间释放内存对象 332 若需要定义一个类域或类方法，应使用哪种修饰符？ C 单选题 static package private public 333 下面哪个函数是 public void aMethod(){...} 的重载函数？ D 单选题 void aMethod( ){...} public int aMethod(){...} public void aMethod ( ){...} public int aMethod ( int m){...} 334 Java 的字符类型采用的是 Unicode 编码方案，每个 Unicode 码占用（）个比特位。 C 单选题 8 16 32 64 335 以下关于继承的叙述正确的是（） A 单选题在Java中类只允许单一继承在Java中一个类只能实现一个接口 "在Java中一个类不能同时继承一个类和实现一个接口" 在Java中接口只允许单一继承 336 下列关于 Java语言的特点，描述错误的是（） C 单选题 Java是跨平台的编程语言 Java支持分布式计算 Java是面向过程的编程语言 Java支持多线程 337 下述概念中不属于面向对象方法的是（）。 D 单选题对象、消息继承、多态类、封装过程调用 338 结构化程序设计所规定的三种基本控制结构是（） C 单选题输入、处理、输出树形、网形、环形顺序、选择、循环主程序、子程序、函数 339 下列关于构造方法的叙述中，错误的是（） C 单选题 Java语言规定构造方法名与类名必须相同 "Java语言规定构造方法没有返回值，但不用 void声明" Java语言规定构造方法不可以重载 Java语言规定构造方法只能通过 new 自动调用 340 下列哪个类的声明是正确的？（） D 单选题 abstract final class HI{} abstract private move(){} protected private number; public abstract class Car{} 341 关于被私有访问控制符 private 修饰的成员变量，以下说法正确的是（） C 单选题 "可以被三种类所引用：该类自身、与它在同一个包中的其他类、在其他包中的该类的子类" "可以被两种类访问和引用：该类本身、该类的所有子类" 只能被该类自身所访问和修改只能被同一个包中的类访问 342 下列关于 for 循环和 while 循环的说法中哪个是正确的？（） B 单选题 while 循环能实现的操作， for 循环也都能实现 "while 循环判断条件一般是程序结果， for 循环判断条件一般是非程序结果" 两种循环任何时候都可替换两种循环结构中都必须有循环体，循环体不能为空 343 下列哪一个关键字用于实现接口来定义类？ B 单选题 extends implements abstract interface 344 下面哪一个操作符的优先级最高？ D 单选题 && || ! ( ) 345 编译 Java程序的命令是： B 单选题 appletviewer javac java javadoc 346 编译 Java 源程序文件将产生相应的字节码文件，这些字节码文件的扩展名为 B 单选题 byte class html exe 347 执行语句 int i = 1, j = ++i; 后 i 与 j 的值分别为 D 单选题 1 与 1 2 与 1 1 与 2 2 与 2 348 main 方法是 Java应用程序执行的入口点，关于 main 方法的方法头以下哪项是合法的？ B 单选题 public static void main（） public static void main（ String[] args ） public static int main（String [] arg public void main （String arg[] ） 349 下列哪个选项不是 Java语言的特点？ D 单选题面向对象高安全性平台无关面向过程 350 下列哪个是合法的 Java标识符？ B 单选题 Tree&Glasses FirstJavaApplet theLastOne 273.5 351 下面哪一个循环会导致死循环？ C 单选题 for (int k = 0; k < 0; k++) for (int k = 10; k > 0; k--) for (int k = 0; k < 10; k--) for (int k = 0; k > 0; k++) 352 在 Java中用什么关键字修饰的方法可以直接通过类名来调用？ A 单选题 static final private void 353 若在某一个类定义中定义有如下的方法： abstract void performDial( );该方法属于 C 单选题接口方法最终方法抽象方法空方法 354 如果希望某个变量只可以被类本身访问和调用，则应该使用下列哪一种访问控制修饰符 A 单选题 private protected private protected public 355 在 Java中， "456"属于（）类的对象。 B 单选题 int String Integer Stri 356 NumberSystem.out.println("5" + 2); 的输出结果应该是（）。 A 单选题 52 7 2 5 357 "为 AB 类的一个无形式参数无返回值的方法 method 书写方法头，使得使用类名 AB作为前缀就可以调用它，该方法头的形式为 ()。" A 单选题 static void method( ) public void method( ) final void method( ) abstract void method( ) 358 下面声明数组的写法错误（）。 D 单选题 int a[ ]; int[ ] a; int[3][ ] a; int[ ][3] a; 359 "设 x 为 float 型变量， y 为 double 型变量， a 为 int 型变量， b 为 long 型变量， c 为char 型变量，则表达式 x+ya/x+b/y+c 的值为 ()类型。" C 单选题 int long double char 360 欲构造 ArrayList 类的一个实例，此类继承了 List 接口，下列哪个方法是正确的？（） B 单选题 ArrayList myList=new Object （）； List myList=new ArrayList（）； ArrayList myList=new List（）； List myList=new List（）； 361 Java编程所必须的默认引用包为 () B 单选题 java.sys包 java.lang 包 java.util 包以上都不是 362 下面语句在编译时不会出现警告或错误的是 () C 单选题 float f=3.14; char c= ” c”; Boolean b=null; int i=10.0; 363 "声明成员变量时 ,如果不使用任何访问控制符 (public, protected, private) ，则以下哪种类型的类不能对该成员进行直接访问（）" D 单选题同一类同一包中的子类同一包中的非子类不同包中的子类 364 下列哪种异常是检查型异常，需要在编写程序时声明（） C 单选题 NullPointerException ClassCastException FileNotFoundException IndexOutOfBoundsException 365 下面哪个流类属于面向字符的输入流 () D 单选题 BufferedWriter FileInputStream ObjectInputStream InputStreamReader 366 下面哪一行代码正确的声明了一个类方法 (静态方法 )？ D 单选题 public int method(int i) protected method(int i) public static method(String s) protected static void method(Integer i) 367 下面这些类型的应用，那个不使用 Java语言来编写？ A 单选题 JavaScript Applet Servlet Java Swing 368 使用 SQLAlchemy 完成指定规则过滤记录的方法是 A 单选题 filter() group() limit() order_by() 369 使用 SQLAlchemy 定义关系时，使用的代码是 C 单选题 relationship() app.relationship() db.relationship() flask.relationship() 370 获取请求当前 URL 使用的方法，可以使用 request 中的 D 单选题 get post methods method 371 WTForms 中表示多行文本字段的是 B 单选题 StringField TextAreaField TextField SelectField 372 WTForms 中用来验证数据是否有效使用的是 A 单选题 DataRequired() Required() InputRequired() Optional() 373 在 Flask 框架中，自定义错误页面使用的装饰器是 C 单选题 error() handler() errorhandler() page() 374 在 Jinjia2 模板引擎中创建 block 后要使用( )表示结束。 A 单选题 {% endblock %} {% end %} {{ endblock }} {{ end }} 375 在使用 SQLAlchemy 模型从数据库中查询数据时，可以使用模型提供的( )属性调用各种过滤方法和查询方法。 A 单选题 query order filter select 376 在 Flask 框架中，找不到与路由匹配的视图函数会返回( )错误。 B 单选题 500 404 302 200 377 在 Flask 框架中设置路由的请求方法，可以使用参数( )。 D 单选题 request requests method methods 378 在 ORM 模型中，数据表的字段由( )类实例表示。 C 单选题 db column db.Column property 379 使用 ORM 模型插入数据时，需要将实例化对象添加到用户会话，使用的代码是( )。 B 单选题 db.add() db.session.add() db.session() add.session() 380 在命令行终端中，运行 Flask 项目使用的命令是( )。 A 单选题 flask run flask flask app app run 381 在进行模板渲染时，需要从 flask 中导入( ) D 单选题 flask templates url_for render_templates 382 在使用 Flask-WTF 自定义表单类时，自定义的类需要继承自( )。 A 单选题 FlaskForm FlaskForms FlaskWTF Forms 383 在进行模板渲染时，需要从 flask 中导入( )。 D 单选题 flask templates url_for render_templates 384 在使用 Flask-WTF 自定义表单类时，自定义的类需要继承自( )。 A 单选题 FlaskForm FlaskForms FlaskWTF Forms 385 在 Jinjia2 模板引擎中实现模板的继承，使用的关键词是 ( )。 B 单选题 extend extends from import 386 在使用 Flask-WTF 自定义表单类时，对字段添加验证函数，使用的参数是( )。 A 单选题 validators submit validator_on_submit validator 387 在测试 Flask 项目时，使用( )模块可以根据需求产生不同类型和数量的虚拟数据。 B 单选题 demo faker test faker_data 388 在数据库模型中，可以指定条件对记录进行排序，使用的方法是( )。 A 单选题 order_by filter order group() 389 为 Flask 创建自定义命令，通过创建一个函数，为该函数添加 ( )装饰器。 B 单选题 @app.route() @app.cli.command() @app.cli() @app.command() 390 在MapReduce中，（）组件是用户不指定也不会有默认的。 A 单选题 Combiner OutputFormat Partitioner InputFormat 391 在Mapper类中，共有4个函数：setup（）、map（）、（）、run（）。 B 单选题 Reducer（） cleanup（) Split（） local（） 392 以下对于zookeeper中的角色描述错误的是（） C 单选题 Leader：负责进行投票的发起和决议。 Follower：接受客户请求并向客户端返回结果 Observer：接收客户端请求，参加投票 Client：请求发起方 393 以下选项中主节点和从节点配置的端口都是（）。 A 单选题 9000 1000 7000 8000 394 下面说法错误的是（）。 B 单选题 Hadoop集群采用的是Master/Slave工作模式 "DataNode上保存着的是元数据，真正的数据是存放在NameNode上的" "HDFS采用了种对文件切割后分别存放的存储方式。" HDFS是为高数据吞吐量应用优化的。 395 不属于HDFS优势是（）。 A 单选题时间快超大文件大量小文件商用硬件 396 以下命令组成错误的是（）。 D 单选题 vim /etc/profile source /etc/profile hadoop namenode -format bin/hadoop fs -cat/hadoopdata/y/txt 397 下面不是Zookeeper特点的是（）。 C 单选题简单富有表现力支持索引是一个资源库 398 下哪种不是Hive支持的数据类型（）。 D 单选题 Struct Int Map Long 399 按粒度大小的顺序，Hive数据被组成数据库、表、（）和桶。 A 单选题按分区元数据行块 400 下面关于MapReduce的描述中正确的是（）。 D 单选题 MapReduce程序必须包含Mapper和Reduce。 MapReduce程序的MapTask可以任意指定。 MapReduce程序的ReduceTask可以任意指定 MapReduce程序的ReduceTask可以任意指定 401 下面对Streaming的特性说法正确的是（）？ A 单选题 "如果并不要求每个消息必须被处理（允许在处理过程中丢失一些信息），那么可以关闭消息的可靠处理机制，从而可以获取较好的性能。" 关闭消息的可靠处理机制意味着系统中的消息数不会减少。将参数Config.TOPOLOGY_ACKERS设置为1可以关闭消息的可靠性处理机制。 Spout发送一个消息时，使用指定消息messageID的接口进行发送可以关闭消息的可靠性处理机制。 402 以下哪个不是DataStream的组成部件（）？ C 单选题 Data source Transformations Channel Data sink 403 以下哪个channel类型的数据不会持久化（）？ B 单选题 File Channel Memory Channel JDBC Channel HDFS Channel 404 从数据表中查找记录用以下哪一项( ) C 单选题 UPDATE FIND SELECT CREATE

==============多选题=================== 序号题干答案题型选项A 选项B 选项C 选项D 405 以下叙述正确的有（）。 AB 多选题两变量独立,两者的皮尔森相关系数必然等于 0 两变量皮尔森相关系数不等于 0,两者必然不独立 "皮尔森相关系数是否等于零,不能指明两变量是否独立" 两变量不独立,两者的皮尔森相关系数必然不等于 0 406 层次聚类的聚类方式有（）。 AB 多选题凝聚方式聚类分解方式聚类 Q 型聚类 R 型聚类 407 以下哪些算法可以做数值的预测 (Prediction)？（） BD 多选题 Apriori Decision Tree Naive Bayes Linear Regression 408 下列说法中不正确的是（）。 ACD 多选题任何两个变量都具有相关关系人的知识与其年龄具有相关关系散点图中的各点是分散的没有规律根据散点图求得的回归直线方程都是有意义的 409 相关分析可以做到（）。 ABCD 多选题判定现象之间有无关系判定现象之间关系的方向判定相关关系的紧密程度说明现象之间联系的具体形式 410 SQL 中的HAVING用法，正确的有（）。 ACD 多选题 "HAVING 子句必须与 GROUP BY子句同时使用,不能单独使用" 使用 HAVING 子句的同时不能使用 WHERE 子句使用 HAVING 子句的同时可以使用 WHERE 子句使用 HAVING 子句的作用是限定分组的条件 411 箱线图包含的五个统计量是（）。 ACD 多选题中位数众数四分位数最值 412 张亮持有 A 、 B 、 C 、 D 、 E 五只股票，请问以下不属于时间序列问题的有（）。 BC 多选题 "透过 A 只股票过去一年来的股价走势,预测明天 A 只股票的开盘价格" 将A、B、C、D、E五只股票区分为赚钱与赔钱两个类别将A、B、C、D、E五只股票区分为甲、乙、丙三个群体 "透过 A, C, D 三只股票过去一年来的走势,预测明天A 只股票的开盘价格" 413 以下选项中可以用于预测 Y 为分类变量的方法有（）。 CD 多选题伽玛回归泊松回归 Logistic 回归 Probit 回归 414 关联规则的条件是满足（）。 AB 多选题最小支持度(MinimumSupport) 最小信赖度(MinimumConfidence) 最大规则数(MaximumRule Number) 以上皆非 415 以下选项中属于聚类算法的是（）。 AB 多选题 K-Means DBSCAN Apriori KNN 416 以下选项数据web内容挖掘实现技术的有（）。 ABCD 多选题文本总结文本分类文本聚类关联规则 417 关于极差说法错误的是（）。 ABCD 多选题一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布和中间变量值的离散情况 418 大数据的三个阵营包括（）。 ABD 多选题数据拥有者数据应用者、服务者数据挖掘者技术拥有者 419 大数据的精髓是（）。 ABC 多选题不是随机样本而是全部数据不是精确性而是混杂性不是因果关系而是相关关系不是实时变化而是全量变化 420 大数据有（）特点。 ABCD 多选题数据量大速度快、时效高类型多价值密度低、含量大 421 大数据在经济治理方面的作用有（）。 ABCD 多选题推导宏观趋势降低银行坏账率打击假冒伪劣提高生产效率 422 常见的数据污染有（）。 ABC 多选题数据不完整噪声数据数据不一致数据冗余 423 常用的识别异常数据的方法有（）。 AB 多选题物理判别法统计判别法经验法检验法 424 数据预处理的常见方法有（）。 ABCD 多选题数据清理数据集成数据变换数据规约 425 以下哪些属于传统可视化方法。（） ABC 多选题直方图折线图饼图文字云 426 Excel是Microsoft Office的组件之一，可以实现（）。 ABCD 多选题数据处理统计分析数据可视化显示辅助决策 427 以下哪些是制作折线图时的常见失误。（） ABCD 多选题 "刻度间隔太大，使得整条折线太过水平，容易掩盖事实" 刻度间隔太小，使得折线太过陡峭，会夸大趋势 "将虚线和各种图形标记一起用上，这样会分散读者的注意力" 所有的折线用相近的颜色表示使得重点不够突出 428 统计分析方法的局限是（）。 ABC 多选题不全面不深刻统计决断的结论并非绝对正确运用情况复杂，对方法要求高不能反映总体数量特征 429 以下哪些是集中趋势分析的指标。（） ABCD 多选题均值中位数众数四分位数 430 关于众数说法正确的是（）。 ABCD 多选题不受分布数列的极大或极小值的影响 "若将无众数的分布数列重新分组或各组频数依序合并，又会使分配数列再现出明显的集中趋势" "如果与众数组相比邻的上下两组的次数相等，则众数组的组中值就是众数值，以此类推" 缺乏敏感性 431 四分位数的特征值是（）。 ABCD 多选题最大值最小值中位数四分位数 432 数据产生可以分为哪几个阶段。（） ABC 多选题运营式系统阶段用户原创内容阶段感知式系统阶段级数增长阶段 433 问题结构是由（）构成的。 ABD 多选题现状直接原因间接原因最终原因 434 收集整理信息时的行业环境有（）。 ABCD 多选题行业规模及发展速度行业竞争状况行业挑战及机遇行业发展趋势及方向 435 收集整理信息时的竞争分析包含哪些内容。（） AB 多选题确定行业中的主要竞争者收集竞争对手的相关信息收集行业关键技术信息搜集产业链上下游主要环节 436 收集信息主要包含哪些内容（）。 ABCD 多选题宏观环境行业环境竞争环境技术环境 437 统计方法的特性是（）。 ABC 多选题实用性丰富性公平性准确性 438 描述数据集中趋势的常见指标是（）。 ABC 多选题均值中位数众数四分位数 439 数据分析结果呈现需要做哪些准备工作。（） ABC 多选题确定表达的主题确定对比关系选择图形讲解与说明 440 PEST分析法是指（）。 ABCD 多选题政治环境经济环境社会环境技术环境 441 测试集选取的方法一般包括（）。 ABCD 多选题保持法随机二次抽样交叉验证自助法 442 决策树算法的特点是（）。 ABC 多选题模型直观清晰，分类规则易于解释解决了连续数据值的学习问题提供了将学习结果决策树到等价规则集的转换功能不能用于数值计算 443 以下哪些是回归算法的前提。（） ABCD 多选题正态性假设零均值性假设等方差性假设独立性假设 444 时间序列建模是一种应用很广的统计建模方法，可用在以下哪几种情况。（） ABCD 多选题系统描述系统分析预测未来决策和控制 445 数据分析报告一般分为哪些层次。（） ABCD 多选题需求层数据层分析层输出层 446 描述统计包括哪些部分。（） ABC 多选题集中趋势分析离散趋势分析相关分析 D推断统计 447 以下指标中，反应离散趋势的有（）。 ACD 多选题方差四分位数变异系数 D极差 448 以下统计指标，不受极值影响的是（）。 BD 多选题平均数四分位差极差 D众数 449 大数据产生的经历了哪些阶段。（） BCD 多选题数据积累阶段运营式系统阶段用户原创内容阶段感知式系统阶段 450 统计局进行CPI统计中的价格采集，采用的三定原则是（）。 ACD 多选题定时定量定点定人 451 调研分析可以采用以下哪种思路。（） BC 多选题相关分析法总分总归因分析法抽样法 452 分析宏观环境从以下哪些方面来收集信息。（） ABCD 多选题政策法律环境经济环境社会文化环境技术环境 453 可以用于表示某公司一年中每个月销量变化的数据图形类型是（）。 BC 多选题矩形竖图柱状图堆积面积图雷达图 454 可以用于企业竞争环境和行业分析的方法有（）。 BCD 多选题 4P理论 PEST分析法 SWOT分析法波特五力竞争分析 455 分析报告的模式包括以下哪些。（） ABCD 多选题专题式综合式工作汇报式金字塔式 456 分类测试集的选取方法可以有以下哪些。（） BCD 多选题均分法保持法随机二次抽样法交叉验证 457 一个理想的决策树需要满足的条件是（）。 AB 多选题叶子结点数最少叶子结点深度最小叶子结点数最多叶子结点深度最大 458 以下属于回归算法的前提假设的是（）。 ABCD 多选题正态性假设零均值性假设等方差性假设独立性假设 459 下列模型中，可用于平稳时间序列的拟合的是（）。 ABC 多选题线性随机模型 ARMA模型混合自回归模型趋势模型 460 下面属于遗传算法的特点有（）。 ABC 多选题求得全局最优解算法并行化自适应和自学习性对未来的预测 461 大数据加电子商务的应用方向有（）。 ABCD 多选题用户画像精准营销个性化推荐动态定价 462 分析消费者购买行为模型的特征变量有（）。 ABCD 多选题自然社会因素文化因素产品因素个人因素 463 数据分析报告的金字塔原理所遵循的原则是（）。 ABD 多选题归类分组逻辑递进以下统上结论先行 464 大数据4V特征包括（）。 ABCD 多选题数据规模大，数据量巨大(Volume) "数据种类繁多，包括半结构化数据和非结构化数据（Variety）" 价值密度低，如同沙里淘金（Value）数据处理速度快，能实时获取信息(Velocity) 465 Hadoop HDFS自身的局限性包括（）。 ABC 多选题不适合做低延迟、细粒度访问无法高效存储大量的小文件不支持多文件的写入及任意修改文件无法实现数据的冗余备份存储 466 关于Hadoop HDFS名称节点中的元数据信息，下面说法正确的是（）。 ABCD 多选题 "文件是什么：包括目录自身的属性信息，例如文件名，目录名，修改信息等" 文件被分成了多少块每个块和文件之间的映射信息每个文件具体被存储到哪个服务器上 467 关于Hadoop HDFS1.0的局限性包括（）。 ABCD 多选题 "命名空间的限制，名称节点是保存在内存中的，因此，名称节点能够容" "性能的瓶颈，整个分布式文件系统的吞吐量，受限于单个名称节点的吞" "隔离问题，由于集群中只有一个名称节点，只有一个命名空间，因此，" "集群的可用性，一旦这个唯一的名称节点发生故障，会导致整个集群变" 468 以下哪几种数据结构被AutoreleasePoolPage使用（） CD 多选题数组字典链表栈 469 下面属于Hadoop生态圈组件的是（）。 ABC 多选题 MapReduce Hive HBase Java 470 Hadoop的核心组件包括（）。 AB 多选题 MapReduce HDFS Hive Pig 471 关于Hadoop HDFS块的概念，下面说法正确的是（）。 ABD 多选题 "块是HDFS的核心概念，HDFS为了分摊磁盘读写的开销，也就是在大量数" "Hadoop1.x中，默认为64MB，可以调大，但不是越大越好，块的大小设" "Hadoop1.x中，默认为128MB，可以调大，越大越好，块的大小设定不受" HDFS的一个块通常要比普通文件大的多 472 关于Hadoop HDFS名称节点中的FsImage中，主要信息包括（）。 ABCD 多选题文件的复制等级文件的修改访问时间文件的访问权限组成文件的块 473 关于Hadoop HDFS的冗余数据存储设计的优点，下面说话正确的是（）。 ABC 多选题 "加快数据的传输速度，冗余备份可以并行访问数据，加快了操作访问效" "容易的检查数据错误，冗余备份机制可以用来互相参照，容易检查数据" "容易保持数据的一致性，冗余备份机制使得即使有一个副本坏掉了，只" "提升磁盘空间的利用率，冗余备份机制使得磁盘空间有效利用" 474 Hadoop HDFS的设计目标包括（）。 ABCD 多选题兼容廉价的硬件设备支持大数据集支持简单的文件模型跨平台性 475 关于Hadoop HDFS块的设计的优点，下面说法正确的是（）。 ABC 多选题支持大规模的文件的存储简化系统设计适合数据备份能够实现冗余备份机制 476 关于Hadoop HDFS的文件操作，正确的是（）。 ABC 多选题 HDFS可以创建文件并写入数据 HDFS可以查看文件内容 HDFS可以更改文件名 HDFS可以更改文件内容 477 逻辑回归是数据挖掘算法中常用的模型算法，以下关于逻辑回归的说法正确的是（）。 CD 多选题异常值不会对模型造成很大的干扰。 "逻辑回归的自变量必须是分类变量,因此要对连续型变量进行离散化处理。" 逻辑回归属于分类算法。逻辑回归对模型中自变量的多重共线性较为敏感。 478 数据离散化的方法有哪些（）。 BD 多选题随机取值等距离散法数值规约等频离散法 479 以下有关误差的说法中，正确的是（）。 ABCD 多选题 "相对误差反映实际观测值与预测值之间差异的相对程度" 平均误差反映实际观测值与预测值之间的平均差异评价预测精度是通过测量与分析预测误差进行的绝对误差是实际观测值与预测值的离差 480 以下算法中对缺失值不敏感的是（）。 BD 多选题 Logistic 回归 CART 决策树 SVM 算法朴素贝叶斯 481 方差分析的基本假设前提是（）。 ABC 多选题各处理条件下的样本均来自正态总体各处理条件下的样本相互独立各处理条件下样本的方差都相等各处理条件下样本均值相等,方差可以不等 482 若检验统计量 F近似等于 1 则表示（）。 AD 多选题组间方差中不包含系统因素的影响组内方差中不包含系统因素的影响组间方差中包含系统因素的影响方差分析中不应拒绝原假设 483 决策树法分析问题的主要步骤为（）。 ABCD 多选题结构化问题设计可能结果发生的概率设计结果的得益分析问题 484 下列哪些分类预测方法可适用有连续型变量的自变量？（） ABC 多选题逻辑回归神经网络 SVM 算法 C4.5算法 485 以下有关直线回归方程的说法正确的是（）。 ABCD 多选题 "建立前提条件是现象之间具有较密切的线性相关关系" 关键在于确定方程中的参数 a 和 b 表明两个相关变量间的数量变动关系 "可用来根据自变量值推算因变量值,并可进行回归预测" 486 聚类模型构建时，通常采用的相似性统计量计算方法为（）。 ABE 多选题绝对距离欧式距离夹角余弦相关系数 487 Apriori 算法的计算复杂度受哪些因素影响？（） ABCD 多选题支持度阀值项数(维度) 事务数事务平均宽度 488 主成分分析中确定主成份个数是关键步骤，其大致原则包括（）。 AC 多选题特征根值大于 1 特征根值大于 0.8 累积特征根值加总占总特征根值的 80%以上累积特征根值加总占总特征根值的 90%以上 489 下列哪个场景可以使用决策树构建模型？（） ABD 多选题预测申办信用卡的新客户是否将来会变成卡奴保险公司针对特定族群做人寿保险的推销找出购物篮里商品购买间的关联根据生活作息推断该病人得癌症的机率 490 以下选项哪些对聚类分析影响很大？（） ABCD 多选题聚类分析回归分析神经网络决策树算法 491 下列（）可以作为集群的管理工具。 ABCD 多选题 Puppet Rsync + ssh + scp Pdsh Cloudera Manager 492 "给你几万条用户数据，每条用户数据的电话号码是其唯一的关键字段，请选择合适的数据结构，将这些用户数据加载到内存中管理起来。这个数据结构支持基于电话号码的快速查询，同时又支持新数据的快速插入(有新的用户不断注册进来)：（）" ABC 多选题链表 Hash表 B+Tree 队列 493 对于Hadoop中client上传文件的描述正确的是（）。 BD 多选题数据经过NameNode传递给DataNode "Client端将文件以Block为单位，管道方式依次传到DataNode" "Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作" "当某个DataNode失败，客户端会继续传给其它DataNode" 494 Cloudera提供哪几种安装CDH的方法？（） ABCD 多选题 Cloudera manager Tar ball Yum Rpm 495 MapReduce与HBase的关系，哪些描述是正确的（）。 BC 多选题 "两者不可或缺，MapReduce是HBase可以正常运行的保证" "两者不是强关联关系，没有MapReduce，HBase可以正常运行" MapReduce可以直接访问HBase 它们之间没有任何关系 496 下面关于Hbase的特性描述正确的是（）。 ABCD 多选题高可靠性高性能面向列可伸缩 497 下列哪些选项是安装HBase前所必须安装的？（） AB 多选题操作系统 JDK Shell Script Java Code 498 HBase官方版本可以安装在（）操作系统上。 ABC 多选题 CentOS Ubuntu RedHat Windows 499 以下关于DBSCAN算法说法正确的是（）。 ABC 多选题可以对任意形状的稠密数据集进行聚类样本集的密度不均匀时，聚类质量较好 "可以在聚类的同时发现异常点，对数据集中的异常点不敏感" 聚类结果没有偏倚 500 AGNES算法可分为（）。 ACD 多选题单链算法多链算法全链算法均链算法 501 以下哪些是典型的关联规则应用场景。（） ABCD 多选题穿衣搭配推荐依据用户轨迹的商户精准营销实时新闻推荐金融客户交叉销售 502 以下哪些是MatLab软件的特点。（） ABCD 多选题高效的数值计算及符号计算功能，能使用户从繁杂的数学运算分析中解脱出来具有完备的图形处理功能,实现计算结果和编程的可视化友好的用户界面及接近数学表达式的自然化语言，使学者易于学习和掌握功能丰富的应用工具箱(如信号处理工具箱、通信工具箱等),为用户提供了大量方便实用的处理工具 503 常用的数据挖掘编程工具有（）。 ABCD 多选题 SAS Stata MatLaB R 504 审核回收的调研数据需要做以下哪些数据清洗。（） ABCD 多选题补充缺失值剔除异常值剔除数据重复调整不一致的数据 505 可以用于分类指标呈现的方式有以下哪些。（） ABD 多选题混淆矩阵 ROC曲线气泡图增益图 506 回归模型的检验需要经过以下哪些方面。（） ABD 多选题样本容量模型显著性无偏估计拟合优度 507 用户对HBase Region服务的读写过程，下面说法正确的是（）。 ABC 多选题 "用户写入数据时，被分配到相应Region服务器去执行" 用户数据首先被写入到MemStore和Hlog中 "只有当操作写入Hlog之后，commit()调用才会将其返回给客户端" "当用户读取数据时，Region服务器会直接去磁盘上面的StoreFile中寻找" 508 Hadoop集群中关于机架配置的描述正确的是（）。 ABD 多选题如果一个机架出问题，不会影响数据读写写入数据的时候会写到不同机架的DataNode中写入数据的时候会写到随机机架的DataNode中 "MapReduce会根据机架获取离自己比较近的网络数据" 509 以下属于分类器模型评价指标的有（）。 ABD 多选题预测准确度 recall 模型描述的简洁度 F1-Score 510 "随机森林指的是利用多棵树对样本进行训练并预测的一种分类器，以下针对随机森林算法的表述，错误的是（）。" AC 多选题 "随机森林算法的分类精度会随着决策树数量的增加而提高。" 随机森林算法对异常值和缺失值不敏感。随机森林算法不需要考虑过拟合问题。 "决策树之间相关系数越低、每棵决策树分类精度越高的随机森林模型的分类效果越好。" 511 回归平方和（ESS）是指（）。 BCD 多选题被解释变量的实际值与平均值的离差平方和被解释变量的回归值与平均值的离差平方和被解释变量的总变差与剩余变差之差解释变量变动所引起的被解释变量的变差 512 Logistic建模时，如果变量Area=C时，Y取值均为 1，无法确定是否出现的是哪个问题（）。 ABD 多选题共线性异常值拟完全分离(Quasi-complete separation) 缺失值 513 消除时间序列中的不规则变动和季节变动的方法是（）。 AD 多选题移动平均法指数平滑法时间序列乘法模型季节指数 514 C4.5算法是由Ross Quinlan开发的用于产生决策树的算法，以下描述正确的有（）。 BCD 多选题每个节点的分支度只能为 2 使用 gain ratio 作为节点分割的依据可以处理数值型态的字段可以处理空值的字段 515 维归约即摒弃掉不重要的特征，用少数的关键特征来描述数据。常用的维归约处理方法有（）。 AC 多选题主成分分析特征提取奇异值分解特征加权 516 时间序列预测方法分为（）。 AB 多选题平滑法预测 ARIMA模型预测 Winter法不能确定 517 MapReduce与HBase的关系，哪些描述是正确的。（） BC 多选题 "两者不可或缺，MapReduce是HBase可以正常运行的保证" "两者不是强关联关系，没有MapReduce，HBase可以正常运行" MapReduce可以连接HBase 它们之间没有任何关系 518 ResoureManager主要作用是什么（）？ AC 多选题调度器应用程序管理器节点资源管理节点资源管理 519 以下对SPARK的描述,正确的是（）？ ABD 多选题高性能内存迭代计算框架内存计算一站式解决方案性能差支持多语言快速开发应用 520 以下哪些是Spark的常驻进程（）？ AD 多选题 JobHistory SparkResource NodeManager JDBCServer 521 关于HBase的特性，哪些是正确的（）？ ABCD 多选题高可靠性高性能面向列可伸缩 522 HBase读数据时需要读取哪几部分数据（）？ AC 多选题 HFile Hlog MemStore HDFS 523 Loader作业的配置包括以下哪些步骤（）？ ABCD 多选题基本信息输入配置转换输出配置 524 目前FusionInsight有哪些子产品（） ABCD 多选题 FusionInsight HD FusionInsight Farmer FusionInsight Miner FusionInsight MPPDB 525 FusioninsightManager的主要功能有以下哪些？( ) BCD 多选题数据集成系统管理安全管理服务治理 526 关于Spark SQL&Hive 区别与联系,下列说法正确的是?( ) ABCD 多选题 Spark SQL 依赖HiVe 的元数据 "Spark SQL 的执行引擎为Spark core.,Hive 默认执行引擎为Mapreduce" Spark SQL 不可以使用Hive 的自定义函数 Spark SQL 兼容绝大部分Hive 的语法和函数 527 在Fusioninsight 集群中, Spark 主要与以下哪些组件进行交互?( ) ABD 多选题 ABD YARN Hive Zookeeper 528 以下关于Hbase 中HMaster 的功能描述哪些是正确的?( ) ABCD 多选题 "Region 负载均衡, Region 分裂以及分裂后的Region 分配" 负责建表/修改表/删除表负责Region Server 的负载均衡 Regionserver 失效后的Region 迁移 529 Nimbus 在Streaming 架构中的功能包括?( ) ABD 多选题监控任务执行状态任务调度启动/关闭工作进程资源分配 530 下面关于flink 窗口的描述错误的是( ) AC 多选题滚动窗口在时间上是重叠的滚动窗口在时间上是不重叠的滑动窗口在时间上是不重叠的滑动窗口之间时间点存在重叠 531 以下哪些数据源可以通过Loader 实现与FusionInght HD 的数据交换?( ) ABCD 多选题 NoSQL FTP Server SFTP Server MySQL 532 ZKFC 进程部署在hdfs 中的以下那个节点上？( ) AB 多选题 active namenode standby namenode datanode 以上全部不对 533 Zookeeper 中的数据节点znode 分为哪几种类型?( ) BD 多选题 semi-persistent ephemeral temporary persistent 534 下面选项中，哪些不是mysql数据库的引擎 BD 多选题 Innodb OLTP Memory OLAP 535 Flume 适用于以下哪些场景的数据收集?( ) ABC 多选题 Thrift,Avro, Syslog, Kafka 等数据源上收集数据本地文件数据采集应用系统产生的日志采集大量数据的实时数据采集 536 Mapreduce 过程中,以下属于Shuffle 机制的是?( ) ABCD 多选题 Copy Partition combine Sort/Merge 537 Fusioninsight Manager 可以对哪些项目进行健康检查?( ) ABCD 多选题角色主机服务实例 538 Fusioninsight Manager 与外部管理平台对接时,支持哪些接口?() BCD 多选题 VPN Syslog FIP SNMP 539 以下关于FusionInsight 中carborData 说法正确的有?( ) ABCD 多选题使用Carbon 的目的是对大数据即席查询提供超快速响应。 "Carbon 使用轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少 60%-80%数据存储空间,大大节省硬件存储成本。" "Cabonr 是一种新型Apache Hadoop 本地文件格式,使用先进的列式存储，索引,压缩和编码技术，以提高计算效率,有助于加速超过PB 数量级的数据查询,可用于更换的交互查询。" Carbon 也是一种将数据源与Spark 集成的高性能分析引擎 540 以下选项中,属于HDFS 架构关键特性的是?( ) ABCD 多选题 HA 高可靠性健壮机制元数据持久化机制多方式访问机制 541 Streaming 的处理节点Bolt 中,可以完成以下哪些操作?( ) ABCD 多选题连接运算过滤（ Filter）连接数据库业务处理 542 Fusioninsight HD 集群中包含了多种服务,每种服务又由若干角色组成,下面哪些是服务的角色?( ) BC 多选题 HDFS Namenod Datanode Hbase 543 "Fusioninsight HD 系统中使用Streaming 客户端Shell 命令提交了拓扑之后,使用StormUI 查看发现该拓长时间没有处理数据,可能原因有?( )" AB 多选题查看客户端异常堆栈,判断是否客户端使用问题 "查看主Nimbus 的运行日志,判断是否Nimbus 服务端异常" "查看Supervisor 运行日志,判断是否Supervisor 异常" 查看Worker 运行日志 544 Hbase中包含的一些典型的Filter 有哪些?( ) ABCD 多选题 SingleColumValueFilter FilterList RowFilter KeyOnlyFilter 545 Flink 流式处理的数据源类型包括?( ) ABCD 多选题 Collections JDBC Socket streams Files 546 Hbase集群定时执行Compaction 的目的是什么? ABCD 多选题 "减少同一个Region 同个Columnfamily 下的文件数目" 减少同一个Region 的文件数目提升数据读取牲能提升数据写入能力 547 Flume进程级联时,以下哪些Sink 类型用于接收上一跳Flume 发送过来的数据? BD 多选题 Null Sink thrift sink Hive sink avro sink 548 Flink可以基于以下哪些窗口进行统计? ABCD 多选题时间窗口滑动窗口会话窗口 countWindow 549 关于Flume,下列说法错误的是? CD 多选题 Flume 级联节点之间的数据传输支持加密 F1ume 支持多级联和多路复用 "Source 到Channel 到Sink 等进程内部有加密的必要" Flume 级联节点之间的数据传输不支持压缩 550 以下关于Kafka logs 中segment file 的说法正确的是? ABD 多选题通过索引信息可以快速定位message "稀疏存储,即将原来的完整数据,只间隔的选择多条进行存储" "是index 元数据全部映射到memory,可以避免segment file 的index 数据I0 磁盘操作" "索引文件稀疏存储,可以大幅度降低index 文件元数据占用空间大小" 551 Hadoop 集群规模很大时，数据的分布情况会非常关键,用户需要根据数据分布情况,决定集群是扩容,数据是否需要做负载均衡等, fusioninsight 资源分布监控说法正确（） ABCD 多选题用户快速聚焦在最关键的资源消耗上通过每个服务主业的资源分布查看界面,看到关键的资源分布情况 "通过dashboard 界面,可以查看到主机资源分不清哪个矿,例如内存占用率在 50-75%的主机列表,并提供链接跳转" 帮助用户迅速找到资源消耗最高的点,采取适当的措施 552 以下关于华为大数据解决方案说法正确的是( ) ABCD 多选题 GAUSSDB 是一款开源数据库产品 Farmer 是数据服务框架 "Fusion Insight Manager 是一个分布式系统管理框架,管理员可以通过多接入点操控分布式集群" "Fusioninsight HD 是基于开源大数据软件Hadoop的增强版本" 553 Fusioninsight HD 数据高可靠性体现在以下哪些方面? ABCD 多选题硬盘热插拔关键数据掉电保护跨数据中心容灾第三方备份系统集成 554 Kafka 消息传输保障通常有以下哪几种( )? ABD 多选题仅有一次( Exactly Once) 最少一次( At Least Once) 最多三次( At Most Three Times) 最多一次( At Most Once) 555 Hbase的特点有哪些?( ) ABCD 多选题面向列高性能可伸缩高可靠性 556 Yarn 中,“从”节点负责以下哪些工作? BC 多选题集群中所有资源的统一管理和分配监督container 的生命周期管理 "监控每个Container 的资源使用(内存、CPU 等)情况" 管理日志和不同应用程序用到的附属服务 557 Spark 有哪些特点? ABCD 多选题快灵轻巧 558 与开源sqoop 相比, loader 具有哪些増强特性?( ) ABCD 多选题高可靠性高性能安全性图形化 559 Fusioninsight HD loader 可以将 HDFS 数据导出到以下哪些目标端? ABCD 多选题 oracle 数据库 SFTP 服务器 BD2 数据库 FTP 服务器 560 Fusioninsight HD 在创建作业时,连接器有以下哪些作业? ABCD 多选题配置作业与内部数源连配置作业与源连接确定有转换提供优化参数导出性能 561 Fusioninsight 家族包含下列哪些子产品? ABC 多选题 Fusioninsight Farmer Fusioninsight Miner Fusioninsight HD GAUSSDB 200 562 数据流如何Transformation 之间传输数据,数据流可以分为那些类型? AC 多选题一对一流 distributing 流一对多流 redistributing 流 563 Flink 的兼容性体现在以下哪些方面? ABCD 多选题 YARN 能够作为F1ink 集群的资源调度管理器 "能够与Hadoop 原有的Mappers 和Reducers 混合使用" 能够使用Hadoop 的格式化输入和输出口能够从本地获取数据 564 以下关于Hbase 的文件存储模块( Hbase Filestream,简称HFS)描述正确的有? ABCD 多选题应用在Fusioninsight H 的上层应用 HFS 封装了HBase 与HDFS 的接口为上层应用提供文件的存储,读取,除等功能 HFS 是Hbase 的独立模块 565 若在消息处理过程中允并部分信息丢失,关闭消息可靠性处理机制的方式有以下哪些? ACD 多选题将参数Config. Topology_ ACKKRS 设置为 0 将参数Config. Topology_ ACKKRS 设置为False "Spout 发送消息时,使用不指定消息messageid 的接口进行发送" Bolt 发送消息时使用Unanchor 方式发送 566 "采用Flume 传输数据过程中,为了防止因F1me 进程重启而丢失数据,可以使用以下哪种Channel 类型?" BC 多选题 Memory Channel JDBC Channel File Channel HDFS Channel 567 关于Hbase 存储型的描述正确的是? ABCD 多选题 "即使是key 值相同, qualifier 也相同的多个keyvalue.也可能有多个,此时使用时间戳" 同一个key 值可以关联多个value keyvalue 期有时间戳,类型等关键信息每一个keyvalue 都有一个qualifier 标识 568 fusioninstght hd 集群包含多种服务,每种服务又有若干个角色组成,下面那些是角色? AC 多选题 namenode hbase datanode 以上全都正确 569 fusininsight HD 平台中,那些组件支持对列表加密? CD 多选题 HDFS Flink hbase hive 570 YARN 容量调度器的主要特点有哪些? ABCD 多选题容量保证动态更新配置文件灵活性多重租赁 571 以下哪些选项属于fusioninsight 数据安全性? BC 多选题操作系统安全加固组件数据加密数据完整性校验用户权限认证管理 572 nodemanager 的内存和CPU 的数量,是通过下列哪些选项进行配置? BCD 多选题 "Yarn sceduler.capacity.root.Queuea maximum-capacity" Yarn nodemanager. resource cpu-vcore Yarn nodemanager. vmem-pmom-ratio Yarn. modemanager. resource. memory-mb 573 下列选项中,哪些是Mapreduce 一定会有的过程? BCD 多选题 Combine Map Reduce Partition 574 下列选项中,哪些是Spark 的重要角色( ) ABD 多选题 Nodemanager Resourcemanager Datanode Driver 575 以下属于Hive SQL 中DDL(数据定义语言)的是? ABD 多选题修改表删除表数据导入建表 576 Structured/ Streaming 在Output 阶段可以定义不同的数据写入方式,包括以下哪些方式? BCD 多选题 General Mode Append Mode Complete Mode Update Mode 577 hbase中以下哪利场景会出发Fllush 操作? ABCD 多选题 Hbase 定时刷新Memstore,默认周期为 1 小时当WALs 文件数量达到阈值时 "Resion 中Memstore 的总大小,达到了预设的 F1ush Size 國值" "Memstore 占用内存的总量和Regionserver 总内存比值超出了预设的阈值大小" 578 以下关于Flink 与其它组件交互说法正确的是? ABCD 多选题 Flink 任务的运行依赖Yarn 来进行资源调度管理 F1ink 的checkpoint 的实现依赖于zookeeper Flink 可以将接收的组件发送给 Kafka Flink 在HDFS 文件系统中读写数据 579 执行Hbase 取数据业务,需要读取哪几部分数据? BD 多选题 HMaster Hfile Hlog Memstore 580 Spark 适用于以下哪些场景? ABCD 多选题交互式查询实时流处理批处理图计算 581 执行Hbase 读数据业务,需要读取哪几部分数据? CD 多选题 HLog HMaster Hfile Memstore 582 以下哪些是Kafka 实际的应用场景? ABC 多选题网站活性跟踪日志收集聚合统计系统运营数据(监控数据) 资源管理 583 在大数据时代,企业所面临的挑战有以下哪些? ABD 多选题 "企业各部门间数据分散,相同数据在各内部存储格式不一致" 数据结构多样化竞争对手的技术进步 "数据存在噪音、缺失、存储类型不规范等问题,需要进行大量的数据预处理工作" 584 下列关于Worker(工作进程exector(线程)、Task(任务)说法正确的是? ABD 多选题每个Executor(线程可以运行多个 task 任务每个Worket 运行多个exector(线程) 每个Workst 只能为个拓扑运行Executor(线程) "每个Executor 运行不同组件( Spout 或Bolt)的Task(任务)" 585 Fusioninsight HD 系统使用Streaming 客户端Shell 命令查看拓扑或者提交拓扑失败,以下哪些定位手段是正确的( )? CD 多选题查看Supervisor 运行日志,判断是否Superisor 异常查看Worker 运行日志 "查看主Nimbus 的运行日志,判断是否Nimbus 服务端异常" 看客户端异常堆栈,判断是否客户端使用问题 586 flink支持的时间操作类型包括以下哪些选项? BD 多选题结束时间处理时间采集时间事件时间 587 下列属于Flume 数据监控的指标是? ACD 多选题 Sink 写入数据量 Datanode 数量 Channel 缓存数据量 Source 接受数据量 588 调用Zookeepe客户端命令中包含哪些信息? ABCD 多选题 Ip 地址端口号服务器名称用户名 589 以下关于Zookeeper 的Leader 选举说法正确的是? AB 多选题 "当实例n 为奇数时,假定n=2x+1,则成为leader 节点需要x+1 票" Zookeeper 选举 1 eader 时,需要半数以上票数当实例数为 8 时,则成为leader 容灾能力为 4 "当实例数n 为奇数时,假定n=2x+1,则成为leader 节点需要x 票" 590 hdfs不适用哪些场景? BD 多选题流式数据访问大量小文件存储大文件存储与访问随机写入 591 在Loader 历史作业记录中,可以查看以不哪些内容? ABCD 多选题作业状态脏数据链接错误行/文件数量作业开始/运行时间 592 Zookeeper可以为Fusion Insight 哪些提供分布式管理支持? ACD 多选题 Hive loader hbase Spark 593 以下关于Kafka Partition 说法正确的有? ABCD 多选题引入Partition 机制,保证了Kafka 的高吞吐能力每个Partition 都是有序且不可变的消息队列 "Partition 数量决定了每个consumer group 中并发消费者的最大数量" 每个Partition 在存储层面对应一个 1og 文件 594 hive在load 是不检索数据是否符合schema 的,hive 遵循的是schema on read(读时模式)只有在读时模式的时候才检查 hive 的数据字段,shena.下关于Flink 中transformation 的说法正确的是? ABD 多选题可以通过window 设定时间窗口 filter 操件是对每个元素执行boolean 函数 flatmap 是对文本进行切分 keyby 是将源头数据按照key 进行分组,以保证同一个key 的元数据分到同样的组中 595 Loader 可以实现以下哪些转换规则? ABCD 多选题长整型时间转换拼接转换增量转换空值转换 596 下面哪些场景不是Flink 组件擅长的? BD 多选题批处理迭代计算流处理数据存储 597 "Hive 中的这条命令"""" SELECT a. salary,b. address FROM employee a JOIN( SELECT addressFROI employee info where province=zhe jiang) b ON a name-b.name:""""是个什么类型的操作?" BD 多选题导入数据 join 查询创建表子查询 598 下列关于worker(エ作进程)、executor(线程)、Task(任务)说法正确的是? ABC 多选题每个Execute(线程)可以运行多个task(任务) 每个worker 可以运行多个Executor(线程) "每个Executor(线程)可以运行不同组件( Spout 或Bolt)的rask(任务)" 每个worker 只能为一个拓扑运行executor(线程) 599 HBase 的数据文件 HFile 中一个 Keyvalue 格式包含哪些信息？ ABCD 多选题 Key value TimeStamp Key type 600 HBase 集群定时执行Compaction 的目的是什么？ AB 多选题 "减少同一个 Regin 同个 ColumnFamily 下的文件数目" 提升数据读取性能减少同一个 ColumnFamily 的文件数据减少同一个 Region 的文件数目 601 以下哪些是 Spark 服务的常驻进程？ AB 多选题 JobHistory JDBCServer SparkResource NodeManaaer 602 Hadoop 的 HDFS 是一种分布式文件系统，适合以下哪种场景的数据存储和管理？ BD 多选题大量小文件存储高容错高吐量低延迟读取流式数据访问 603 "基于 Hadoop 开源大数据平台主要提供了针对数据分布式计算和存储能力，如下属于分布式存储组件的有？" CD 多选题 MR Spark HDFS HBase 604 关于大数据的主要特征理解和描述正确的有？ ABCD 多选题来源多，格式多增长速度快处理速度快存储量大，计算量大数据的价值密度较低 605 Hadoop 通过 ResourceManager 对集群资源进行管理，它的主要功能有？ ABC 多选题集群资源调度应用程序管理集群资源管理日志管理 606 以下关于 Hadoop 的 HDFS 描述正确的有？ ACD 多选题 HDFS 由 NameNode, DataNode，client 组成 "HDFS 备 NameNode 上的元数据是主NameNode 同步过去的" "HDFS 采用就近的机架节点进行数据的第一副本存储" HDFS 适适合写一次，多次读取的读写 607 Hadoop 系统中 YARN 支持哪些资源类型的管理？ AB 多选题内存 CPU 网络磁盘空间 608 以下哪些是 Spark 可以提供的功能？ AD 多选题分布式内存计算引擎分布式文件系统集群资源的统一调度流处理功能 609 从生命周期维度看，数据主要经历那几个阶段？ ABCD 多选题数据采集数据存储数据管理数据分析 610 YARN 客里调度器的主要特点有哪些？ ABCD 多选题容量保证灵活比多重租赁动态更新配置文件 611 执行 HBase 读数据业务，需要读取哪几部分数据？ AC 多选题 HFile HLog Mem Store HDFS 612 大数据分析相关技术主要特征包括？ ABC 多选题机器学习，全量特征数据背后事件关联性分析基于海量数据为基础基于精确样本为基础 613 Hadoop 的 HBase 主要特点有哪些？ ABCD 多选题高可靠性高性能面向列可伸缩 614 Spark 可以接收哪些来源的数据？ BCD 多选题 YARN HDFS HIVE HBase 615 关于SecondaryNameNode 哪项是正确的？ AC 多选题它是 NameNode 的热备它对内存没有要求 "它的目的是帮助 NameNode 合并编辑日志，减少NameNode 启动时间" "SecondaryNameNode 应与 NameNode 部署到一个节点" 616 下面哪个组件可以在Hadoop集群中代替MR做一些计算? AC 多选题 Spark Sqoop Hive Avro 617 Hadoop MapReduce对外提供了5个可编程组件，以下哪对中的方法或任务不全在这5个编程组件中。 AB 多选题 Partitioner和Combiner Split和Sort InputFormat和OutputFormat Mapper和Reducer 618 YARN主要包含的模块有以下哪些？ ABC 多选题 ApplicationMaster ResourceManager NodeManager QuorumJournalManager 619 下面哪些是Hadoop 2.x的组件? ABC 多选题 Spark Hive HBase GFS 620 Hadoop的三种安装模式包括以下哪种? BCD 多选题两分布式模式完全分布式模式伪分布模式单机模式 621 Hadoop集群具有以下哪个优点? ACD 多选题高容错性高成本性高可靠性高扩展性 622 关于数据副本的存放策略正确的有些? ABCD 多选题第三个副本:与第一个副本相同机架的其他节点上; 更多副本:随机节点。第一个副本,放置在上传文件的数据节点; "第二个副本,放置在与第一个副本不同的机架的节点上;" 623 大数据采集中面临的主要问题有以下哪些? ABCD 多选题如何避免重复数据数据源多种多样,数据量大、变化快如何保证数据的质量如何保证数据采集的可靠性 624 对于HBase系统的使用场景，以下说法正确的是（）。 ABD 多选题需对数据进行随机读操作或者随机写操作大数据量并发操作需要进行多表联合查询读写访问均是非常简单的操作 625 HBase系统用于记录Region相关信息的表，具体的表包含（）。 AC 多选题 -ROOT- -ADMIN- …META. …SYSTEM. 626 对于HBase分布式存储系统，下面说法正确的是( ) ABCD 多选题高可靠性高性能面向列可伸缩 627 下面哪些属于数据库事务的ACID特性 BCD 多选题唯一性一致性隔离性持久性 628 Hbase的数据文件HFile中一个Keyvalue格式包括哪些信息？ BC 多选题 key value Timestamp Key Type 629 可向顶点着色器（Vertex Shader）传递数据的方式? ABCD 多选题 uniform 变量 attribute变量 varying 变量 vertex 变量 630 下列数据结构不具有记忆功能的是？ AC 多选题队列循环队列栈顺序表 631 以下数据结构属于线性数据结构的是？ AC 多选题队列线性表二叉树栈 632 下列哪些方法可以用来对高维数据进行降维（） AD 多选题 LASSO 主成分分析法聚类分析小波分析法 633 在数据库系统中，产生不一致的根本原因是：（） ABC 多选题数据存储量太大并发控制不当未对数据进行完整性控制数据冗余 634 光缆是数据传输中最有效的一种传输介质,它有(） AB 多选题频带较宽电磁绝缘性能好衰减较小无中继段长 635 在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是() AB 多选题 "将负样本重复10次,生成10w样本量,打乱顺序参与分类" 直接进行分类,可以最大限度利用数据从10w正样本中随机抽取1w参与分类 "将负样本每个权重设置为10,正样本权重为1,参与训练过程" 636 下列关于Bloom Filter的描述正确的是？ AC 多选题是一个很长的二进制向量和一系列随机映射函数没有误算率有一定的误算率可以在Bloom Filter中删除元素 637 数据清理中，处理缺失值的方法是? ABC 多选题估算整例删除变量删除成对删除 638 下列哪些选项是安装HBase前所必须安装的？ AB 多选题操作系统 JDK Shell Script Java Code 639 对于HDFS的组成描述正确的是（）。 ABCD 多选题 HDFS的文件系统主分为管理节点和工作节点。 NameNode管理元数据信息 DataNode保存真正的数据。 DataNode保存真正的数据。选项重复 640 ZooKeeper特点包括（）。 ABCD 多选题最终一致性可靠性实时性实时性选项重复 641 Hadoop生态系统包括（） ABCD 多选题非关系型数据库Hbase 机器学习框架Mahout 数据仓库Hive 日志收集工具Flume 642 以下对于zookeeper描述正确的是（） ABCD 多选题 Zookeeper的核心是原子广播 Zookeeper包含一个简单的原语集 "Zookeeper是个开放源码的分布式应用程序协调服务" Zookeeper是Hadoop的一个子项目 643 以下是Spark中executor的作用是( ) ABC 多选题保存计算的RDD分区数据向Driver反向注册 "接受Driver端发送来的任务Task,作用在RDD上进行执行" 做资源调度任务 644 Stage 的 Task 的数量不是由什么决定( ) BCD 多选题 Partition Job Stage TaskScheduler 645 spark的特点包括() ABD 多选题快速通用可延伸兼容性 646 Task 运行不在以下选项中 Executor 上的工作单元() ABD 多选题 Driver program spark master worker node Cluster manager 647 关于spark容错说法错误的有（） AD 多选题 "在容错机制中，如果一个节点死机了，而且运算窄依赖，则只要把丢失的父RDD分区重算即可，依赖于其他节点" 宽依赖开销更大 Checkpoint可以节约大量的系统资源 RDD的容错机制是基于Spark Streaming的容错机制 648 SparkRdd 转换算子有() ABC 多选题 map filter mapPartitions collect 649 下面哪些端口是 spark 自带服务的端口 () ABD 多选题 8080 4040 8090 18080 650 关于spark中数据倾斜引发原因正确的选项有() ABCD 多选题 key本身分布不均衡计算方式有误过多的数据在一个task里面 shuffle并行度不够 651 Spark driver的功能是什么() ABD 多选题是作业的主进程负责了作业的调度负责向HDFS申请资源负责作业的解析 652 Master 的 selectedLeader 事件后不做哪些操作() ABC 多选题通知 driver 通知 worker 注册 application 直接 ALIVE 653 SparkContext可以从哪些位置读取数据 ACD 多选题本地磁盘 web hdfs 内存 654 scala语言中一个函数可以定义在 ABCD 多选题构造函数里 class内 object内 main函数内 655 MLlib包括 ABCD 多选题分类模型聚类模型特征抽取统计模型 656 在网络爬虫的爬行策略中，应用最为基础的是（）。 AB 多选题深度优先遍历策略广度优先遍历策略高度优先遍历策略反向链接策略 657 当前，大数据产业发展的特点是（）。 ACE 多选题规模较大规模较小增速很快增速缓慢 658 下列关于数据生命周期管理的核心认识中，正确的是（） ABC 多选题 "数据从产生到被删除销毁的过程中，具有多个不同的数据存在阶段" 在不同的数据存在阶段，数据的价值是不同的 "根据数据价值的不同应该对数据采取不同的管理策略" "数据生命周期管理旨在产生效益的同时，降低生产成本" 659 下列关于基于大数据的营销模式和传统营销模式的说法中，错误的是（）。 AB 多选题传统营销模式比基于大数据的营销模式投入更小传统营销模式比基于大数据的营销模式针对性更强传统营销模式比基于大数据的营销模式转化率低基于大数据的营销模式比传统营销模式实时性更强 660 下列关于脏数据的说法中，正确的是（） ABCD 多选题格式不规范编码不统一意义不明确与实际业务关系不大 661 数据再利用的意义在于（）。 ABC 多选题挖掘数据的潜在价值实现数据重组的创新价值利用数据可扩展性拓宽业务领域优化存储设备，降低设备成本 662 按照涉及自变量的多少，可以将回归分析分为（）。 CD 多选题线性回归分析非线性回归分析一元回归分析多元回归分析 663 传统数据密集型行业积极探索和布局大数据应用的表现是（）。 BC 多选题投资入股互联网电商行业打通多源跨域数据提高分析挖掘能力自行开发数据产品 664 大数据人才整体上需要具备（）等核心知识。 AB 多选题数学与统计知识计算机相关知识马克思主义哲学知识市场运营管理知识 665 下列关于大数据的说法中，错误的是（）。 AD 多选题大数据具有体量大、结构单一、时效性强的特征 "处理大数据需采用新型计算架构和智能算法等新技术" 大数据的应用注重相关分析而不是因果分析大数据的应用注重因果分析而不是相关分析 666 大数据作为一种数据集合，它的含义包括（）。 ACD 多选题数据很大很有价值构成复杂变化很快 667 大数据处理流程可以概括为以下哪几步？ ABCD 多选题挖掘采集统计和分析导入和预处理 668 宁家骏委员指出，（）主导了 21 世纪。 ACD 多选题云计算移动支付大数据物联网 669 大数据的主要特征表现为（）。 ABCD 多选题数据容量大商业价值高处理速度快数据类型多 670 大数据作为一种数据集合，当我们使用这个概念的时候，实际包含有哪几层含义？ ABCD 多选题数据很大构成复杂变化很快蕴含大价值 671 云计算的特点包括以下哪些方面？ ABC 多选题服务可计算高性价比服务可租用低使用度 672 "云计算使得使用信息的存储是一个（）的方式，它会大大地节约网络的成本，使得网络将来越来越泛在、越来越普及，成本越来越低。" AD 多选题分布式密闭式密集式共享式 673 20 世纪中后期至今的媒介革命，以（）的出现为标志 ACD 多选题互联网自动化计算机数字化 674 建立大数据需要设计一个什么样的大型系统？ ABCD 多选题能够把应用放到合适的平台上能够开发出相应应用能够处理数据能够存储数据 675 下列哪些国家已经将大数据上升为国家战略？ ABCD 多选题英国日本美国法国 676 SPSS中，数据整理的功能主要集中在（）等菜单中 AD 多选题数据直销分析转换 677 "在分类问题中，我们经常会遇到正负样本数据量不等的情况，比如正样本为10w条数据，负样本只有1w条数据，以下最合适的处理方法是( )" ACD 多选题 "将负样本重复10次，生成10w样本量，打乱顺序参与分类" 直接进行分类，可以最大限度利用数据从10w正样本中随机抽取1w参与分类 "将负样本每个权重设置为10，正样本权重为1，参与训练过程" 678 合并单元数据输出需遵循的标准？ AB 多选题 IEC60044-8 IEC61850-9-2 IEC60044-7 IEC60044-1 679 对于SCADA系统来说，需要监视下列哪些数据 AB 多选题遥测遥信遥调遥控 680 合并单元发送数据给间隔层设备同步原则（ ) AC 多选题点对点-光纤直连-谁使用谁同步点对点-光纤直连-谁发送谁同步组网-经过交换机-谁发送谁同步组网-经过交换机-谁使用谁同步 681 可通过GOOSE报文传递的应用数据包括（） BCD 多选题交流采样值直流/温度值档位信息开关量 682 过程层网络实现（）的数据通讯 ABC 多选题间隔层与过程层间隔层设备之间过程层设备之间间隔层和站控层 683 信息一体化平台可以采集以下哪些数据（）？ AC 多选题 SCADA数据视频图像故障录波数据管理信息数据 684 下面对HBase的描述哪些是正确的？ BCD 多选题不是开源的是面向列的是分布式的是一种NoSQL数据库 685 MapReduce与HBase的关系，哪些描述是正确的？ BC 多选题 "两者不可或缺，MapReduce是HBase可以正常运行的保证" "两者不是强关联关系，没有MapReduce，HBase可以正常运行" MapReduce可以直接访问HBase 它们之间没有任何关系 686 下面哪些选项正确描述了HBase的特性？ ABCD 多选题高可靠性高性能面向列可伸缩 687 下面哪些概念是HBase框架中使用的？ AC 多选题 HDFS GridFS Zookeeper EXT3 688 下面对LSM结构描述正确的是？ AC 多选题顺序存储直接写硬盘需要将数据Flush到磁盘是一种搜索平衡树 689 HFile数据格式中的KeyValue数据格式，下列选项描述正确的是（）。 AD 多选题是byte[]数组没有固定的结构数据的大小是定长的有固定的结构 690 HBase性能优化包含下面的哪些选项？ ABCD 多选题读优化写优化配置优化 JVM优化 691 Rowkey设计的原则，下列哪些选项的描述是正确的？ ABC 多选题尽量保证越短越好可以使用汉字可以使用字符串本身是无序的 692 HBase构建二级索引的实现方式有哪些？ AB 多选题 MapReduce Coprocessor BloomFilter Filter 693 关于HBase二级索引的描述，哪些是正确的？ AB 多选题核心是倒排表二级索引概念是对应Rowkey这个“一级”索引二级索引使用平衡二叉树二级索引使用LSM结构 694 下列关于BloomFilter的描述正确的是？ AC 多选题是一个很长的二进制向量和一系列随机映射函数没有误算率有一定的误算率可以在BloomFilter中删除元素 695 HBase官方版本可以安装在什么操作系统上？ ABC 多选题 CentOS Ubuntu RedHat Windows 696 下列哪项可以作为集群的管理？ ABD 多选题 Puppet Pdsh ClouderaManager Zookeeper 697 配置机架感知的下面哪项正确 ABC 多选题如果一个机架出问题，不会影响数据读写写入数据的时候会写到不同机架的DataNode中 "MapReduce会根据机架获取离自己比较近的网络数据" 698 Cloudera提供哪几种安装CDH的方法？ ABCD 多选题 Clouderamanager Tarball Yum Rpm 699 Hadoop作为分布式计算技术的杰出代表，其主要特征包括（）。 ABCD 多选题可靠性健壮性简单性高效性 700 Hadoop是当前大数据平台的事实标准，下列对Hadoop的描述中正确的是（）。 ABCD 多选题 Hadoop是一个由Apache基金会开发的分布式系统开源架构 Hadoop的初始设计思路来源于Google发布的学术论文 Hadoop在当前衍生出一系列优秀的开源项目，包括Hbase、Hive、Pig等 "Hadoop的两个核心部分是HDFS（HbaseDistributedFileSystem）和MapReduce计算框架" 701 Hadoop分布式文件系统（HDFS）具有（）的特性。 ACD 多选题适合数据批量处理数据处理能力极强最大化吞吐率允许计算向数据迁移 702 Hadoop及其生态系统，可以部署在（） AD 多选题 Linux OS/2 DOS UNIX 703 关于大数据的内涵，以下理解正确的是（） ABCD 多选题大数据就是很大的数据大数据在不同领域，又有不同的状况 "大数据里面蕴藏着大知识、大智慧、大价值和大发展" 大数据还是一种思维方式和新的管理、治理路径 704 大数据的价值体现在（） ABCD 多选题大数据给思维方式带来了冲击大数据为政策制定提供科学依据大数据助力智慧城市提升公共服务水平大数据实现了精准营销 705 对大数据的管理和使用包括哪些方面（） ABCD 多选题大数据的运营大数据的挖掘大数据的应用大数据的存储 706 下面对Streaming说法正确的是（）？ ABCD 多选题事件驱动连续查询数据不存储，先计算实时响应，低延迟 707 下列哪些措施是为了保障数据的完整性( ) ABCD 多选题元数据可靠性保证重建失效数据盘的副本数据安全模式集群数据均衡 708 HBase提供多种数据访问接口的方式，包含接口有（）。 AB 多选题 Java API HBase Shell Thrift Gateway REST Gateway

==================判断题================================== 709 Apriori 算法是一种典型的关联规则挖掘算法。对 710 大数据的 4V 特点是 Volume（数据量大）、 Velocity（处理速度快）、 Variety（多样性）、Veracity （真实性）。对 711 聚类分析可以看作是一种非监督的分类，没有训练集。对 712 数据规范化指将数据按比例缩放，使之落入一个特定的区域。规范化的常用方法有:最大 -最小规范化、z-score规范化、小数定标规范化。对 713 “大数据”是指存储量超过 100TB 的数据集。错 714 DBSCAN算法会把包括噪声点的所有点划分到各自的簇中。错 715 DBSCAN算法会删掉它认为是噪声点的数据点。对 716 FP-growth算法是一种于分类预算方法。错 717 SQL中删除表的命令是delete table。错 718 大数据分析可以从海量数据中发现趋势或者规律，具有很高的应用价值。对 719 大数据与传统数据有着本质上的差别，因为大数据有专门的处理软件。错 720 大数据最重要的特点是数据量大，噪声数据少，所以收集数据过程中要力求精确。错 721 多次抛一枚硬币，数字朝上的频率是1/2。错 722 分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库。对 723 关联规则挖掘就是寻找满足最小置信度的所有频繁项集。错 724 简单随机抽样中，各对象被抽中的概率可能会存在差异。错 725 具有较高置信度的项集也一定具有较高的支持度。错 726 逻辑回归算法通常用于关联规则挖掘。错 727 逻辑回归算法只能用于二分类问题，即输出只有两种，分别代表两个类别。错 728 散点图在统计工作中主要功能是观察变量之间的相关关系。对 729 "以下SQL，收入 BETWEEN 2000 AND 5000，表示收入在 2000至 5000之间，包括 2000但不包括 5000。" 错 730 在硬件条件充裕的情况下，可在数据库中尽量多的建立索引，因为使用索引可以快速访问。对 731 "安装完全分布式Apache Hadoop的核心配置文件有core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml。" 对 732 Hdfs，yarn，hbase，以及spark资源监控，spark任务监控的默认web端口分为50070,8088,16010,8080,4040。对 733 spark的on yarn client模式启动命令为spark-submit --master yarn-client或spark-shell --master yarn-client。对 734 能够充分利用数据价值、先挖掘到数据价值的企业将会占领先机，不注重大数据等新兴技术的企业，将会落后甚至被淘汰。数据将成为最有价值的资产。对 735 数据市场化的价值，在于为各个经济体之间的数据交易提供便捷的途径，使数据以流程化、标准化的方式进行交付。对 736 在数据缺失严重时，会对分析结果造成较大影响，因此对剔除的异常值以及缺失值，要采用合理的方法进行填补，常见的方法有平均值填充、K最近距离法、回归法、极大似线估计法等。对 737 FusionInsight Manage 支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁。（）对 738 由于高质量的决策必然依赖于高质量的数据，因此数据预处理是知识发现过程的重要步骤。对 739 数据异常值检验方法以正态分布为前提，若数据偏离正态分布或样本较小时，则检验结果未必可靠，校验是否正态分布可借助W检验、D检验。对 740 随着数据量的增大，异常值和缺失值对整体分析结果的影响会逐渐变小，因此在“大数据”模式下，数据清洗可忽略异常值和缺失值的影响，而侧重对数据结构合理性的分析。对 741 聚类问题是一种无监督的学习任务，即训练样本的标记信息是未知的，通过对无标记训练样本的学习，来揭示数据的内在性质，就可以为进一步数据分析提供基础。对 742 自然界中某种事物发生时其他事物也会发生，则这种联系称之为关联。对 743 "FP-Growth算法不产生候选集而直接生成频繁集的频繁模式增长算法，该算法采用分而治之的策略。" 对 744 关联分析的目的是找出数据集合中隐藏的关联网，是离散变量因果分析的基础。对 745 折线图可以显示随时间（根据常用比例设置）而变化的连续数据，因此非常适用于显示在相等时间间隔下数据的趋势。对 746 折线图主要用于显示在相等时间间隔下数据的趋势。对 747 饼图一般将最大部分设置在12点指针的左边以强调其重要性，将第二大部分设置在12点的右边，其余的逆时针方向跟进，最小的切片就会落在靠近图表底部——最不重要的位置。错 748 在折线图中，类别数据沿水平轴均匀分布，所有值数据沿垂直轴均匀分布。对 749 “词云”就是对网络文本中出现频率较高的“关键词”给予视觉上的突出，形成“关键词云层”或“关键词渲染”，从而过滤掉大量的文本信息，使访问者只要一眼扫过文本就可以领略文本的主旨。对 750 算术平均数公式是算数平均数=总体标志值（数据）总和/总体单位总和。对 751 四分位差易受极端值的影响。错 752 变异系数越小，变异(偏离)程度越小，风险也就越小。对 753 变异系数又称“离散系数”也称“标准差率”，是标准差与平均数的比值，记为C.V。对 754 数据是指对客观事件进行记录并可以鉴别的数字。错 755 网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息网络数据采集方法。对 756 定性变量（或属性变量，分类变量）不能点出直方图、散点图或茎叶图，但可以描绘出它们各类的比例。对 757 逻辑树分析法主要是帮助理清思路。对 758 数据分析时，将影响业务发展的因素罗列出来，对不同因素进行主次辨析，并展开递进分析，要比直接从“想当然”的某个因素匆忙入手要准确和有效得多。对 759 平均数消除了个体之间的差异，容易导致误判。对 760 BP网络是目前应用最广泛的神经网络模型之一，是一种按误差逆传播算法训练的多层前馈网络。对 761 神经网络由于学习速率是固定的，因此网络的收敛速度慢，需要较长的训练时间。对 762 相比神经网络算法来看，决策树算法的可解释性较差。错 763 回归研究的是数据之间的非确定性关系。对 764 建立回归模型之前，必须先进行主成分分析。错 765 时间序列是按时间顺序的一组数字。对 766 遗传算法与传统优化算法的极大区别是遗传算法从问题解的串集开始搜索，而不是从单个解开始。对 767 遗传算法是从单个初始值迭代求最优解的，容易误入局部最优解。错 768 噪声值处理方法主要有分箱、分类和聚类。错 769 等深分箱法也即统一区间，使数据集在整个属性值的区间上平均分布，即每个箱的区间范围是一个常量，称为箱子深度。错 770 聚类将类似的值聚成簇。直观的，落在簇集合之外的值被视为离群点。对 771 统计方法主要包括描述统计和推断统计。对 772 四分位数是衡量离散趋势的指标。错 773 中位数可以用于顺序数据和分类数据。错 774 数据来源于信息，是经过加工后的信息。错 775 数据主动产生是在用户原创内容阶段。对 776 分层抽样是将总体中各单位按一定顺序排列，根据样本容量要求确定抽选间隔，然后随机确定起点，每隔一定的间隔抽取一个单位的抽样方式。错 777 数据分析是将数据转化成信息，再将信息转化成知识的过程。对 778 因为甲公司的工资平均数比乙公司高，所以甲公司的工资水平比乙公司高。错 779 推断统计是一种汇总统计，用于总结信息集合的特征。错 780 相关变量中，多个自变量影响一个或多个因变量的统计分析方法称为多元回归分析。对 781 在数据分析中，我们发现通常重要的结果只占其中一小部分，约20%，其余80%尽管是多数，却是次要的。这个法则叫帕累托法则。对 782 在保证数据准确的前提下，数据是绝对正确的，因此可以完全依赖数据直接得出分析的结论。错 783 随机二次抽样法是通过多次重复的使用交叉检验法，来得到一组准确率等效果的指标。错 784 时间序列的主要目的是用来预测，根据已有的时间序列数据来预测未来的变化。对 785 如果需要完成的任务是预测一个连续值，则这个任务是回归，如果是离散值，则是分类。对 786 动态定价是指电子商务企业通过数据构建客户资料，来实现灵活的定价和折扣策略。对 787 "数据分析报告的重点是传递分析的结论以及其中有价值的信息给决策者，因此报告的结论与建议是需要重点表述的。" 对 788 数据分析报告的目录要尽可能的详细，这样才能完全体现报告的内容。错 789 "MapReduce设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢”，因为，移动数据需要大量的网络传输开销。" 对 790 Flume 的数据流可以根据 headers 的信息发送到不同的channel 中。（）对 791 "HDFS集群中的数据节点一般是一个节点运行一个数据节点进程，负责处理文件系统客户端的读/写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等操作。" 对 792 HDFS是一个部署在集群上的分布式文件系统，因此，很多数据需要通过网络进行传输。对 793 "HDFS名称节点会定期做检查数据块的副本数量，一旦发现某个数据块的副本数量小于冗余因子，就会启动数据冗余复制，生成新的副本。" 对 794 "在HDFS NameNode中 FsImage中并没有记录具体的记录块在哪些数据节点上存储的，是通过数据节点和名称节点在运行时不断通过沟通而实时维护这些信息的，而这些信息都是存储到内存单中去了。" 对 795 HDFS的命名空间包含目录、文件和块。对 796 聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。对 797 数据分类的步骤为：1 建立一个聚类模型，描述数据类集或概念集; 2使用模型对将来的或未知的对象进行分类。错 798 文本挖掘是从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程，又称信息检索。错 799 DBSCAN 算法是一种基于密度的聚类算法，对异常值非常敏感，因此要在聚类前进行异常值分析。错 800 DBSCAN算法中，在给定的Eps半径邻域内，所有核心点的点数都不应该少于 MinPts 阈值。对 801 聚类分析中，各变量的取值范围在数量级若差异过大，则会影响输出结果。对 802 落在置信区间外的点通常被认为是离群点。对 803 "若一个神经网络(BP 神经网络)模型无隐藏层，输出层个数也只有一个，则可以看做是逻辑回归模型。" 对 804 数据清洗过程中，对遗漏数据的处理方法有：忽略该条记录；手工填补遗漏值；利用默认值填补遗漏值；利用均值填补遗漏值；利用同类别均值填补遗漏值；利用最可能的值填充遗漏值。对 805 四分位数是指在统计学中把序列中的数值由小到大排列并分成四等份，处于分割点位置的数值。对 806 无论是低维数据还是高维数据，DBSCAN 的空间复杂度始终都是 O(m)。对 807 在多元回归分析中，检验方程的拟合优度用调整后的 R 的平方效果更好。对 808 支持度是对关联规则的准确度的衡量。错 809 hadoop的HDFS文件格式化命令为：hadoop namenode -format。对 810 "HDFS的namenode保存了一个文件包括哪些数据块，分布在哪些数据节点上，这些信息也存储在硬盘上。" 错 811 Secondary namenode就是namenode出现问题时的备用节点。错 812 如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。错 813 "形如X→Y的蕴含表达式，其中X和Y是不相交的项集。X称为规则的左部或规则的前提（简记为 LHS），Y称为规则的右部或规则的结论（简记为RHS）。" 对 814 集中趋势的概念就是平均数的概念，表明所研究对象在一定的时间和空间条件下的共同特征。对 815 分类是按照某种指定的属性特征将数据归类，需要确定类别的概念描述，并找出类判别准则。对 816 分类不可用于提取描述重要数据类的模型或预测未来的数据趋势。错 817 在分类的过程中，用训练集训练数据，再用训练集评估模型的性能，得出模型性能很好的结果，则分类模型构建成功。错 818 相关图中的跳点是指时间序列从上升趋势突然变为下降趋势的点，拐点是指与其他数据不一致的观测值。错 819 HDFS的NameNode保存了一个文件包括哪些数据块，分布在哪些数据节点上，这些信息是存储在内存中的。对 820 HDFS分布式文件系统不可以调整冗余数据存储的位置。错 821 HDFS中当数据节点发生故障，或者网络发生断网时，名称节点就无法收到来自一些数据节点的心跳信息，这时，这些数据节点就会被标记为“宕机”，节点上面的所有数据都会被标记为“不可读”，名称节点不会再给它们发送任何I/O请求。对 822 HDFS中每个数据节点会定期向名称节点发送信息，向名称节点报告自己的状态。对 823 Hadoop框架是用Java实现的，所以MapReduce应用程序则一定要用Java来写。错 824 时序预测是指通过时间序列搜索出的重复发生率较高的模式，与回归预测一样，也是用已知的数据预测未来的值，但这些数据的区别是变量所处时间的不同。对 825 决策树是做分类预测的最优算法，因为此算法对噪声数据和共线性都不敏感。错 826 神经网络对未经过训练的数据具有分类功能，但其需要很长时间进行训练。对 827 函数imread( )是用于读取图片文件中的数据。对 828 相异度矩阵存储n个对象两两之间的相似性，表现形式是一个n×n维的矩阵。对 829 Ganglia不仅可以进行监控，也可以进行告警。错 830 神经网络算法可以使权值收敛到某个值，但并不保证其为误差平面的全局最小值。对 831 大数据时代是先有数据后有模式对 832 MapReduce的核心理念是将一个大的运算任务分解到集群每个节点上，充分运用集群资源，缩短运行时间对 833 HBase中Compaction的目的是减少同一个Region，同一个ColumnFamily下的文件数目（）。对 834 barrier是一个特殊的元组，这些元组被周期性注入到流图中并随数据流在流图中流动，每个barrier是当前快照和下一个快照的分界线（）。对 835 Sink取走数据并写入目的地后，会将event从channel中删除（）。对 836 Flume中source必须确切的与一个channel关联（）。对 837 FusionInsight HD可以针对整个集群、某个服务、某个节点进行健康检查，以确定各项指标是否正常（）。对 838 Kafka 日志的清理方式有两种： delete 和compact。默认值是delete。( ) 对 839 fusioninsight HD 产品中,一个典型的kafka 集群包含若干个producer 若干个consummer 和一个zookeeper 集群?( ) 错 840 Channel 的作用类似队列,用于临时缓存进来的数据,当Sink 成功地将数据发送到下一跳的Channel或最终目的,数据会从Channe1 移除( ) 对 841 HDFS 存储数据时，关键数据根据实际业务需要保存在具有高度可靠性的节点中,通过修改Danodo的存储策略，系统可以将数据强制保存在指定的节点组中。( ) 对 842 Spark on Yarn-client 适合用于生产环境是因为可以更快的看到 APP 的输出。( ) 错 843 在Streaming 中,消息可靠性级别中精确一次是通过 ACK 机制来实现的。( ) 错 844 Zookeeper 所有节点都可以处理读请求。( ) 对 845 网络爬虫可以爬取互联网上任意的网页。错 846 Applicationmaster 采用轮询的方式通过 RPC 协议向Resource Manager 申请和领取资源( ) 对 847 在YARN 的任务调度中,一旦Applicationmlaster 申请到资源后,使与对应的Resourcemanager 通信,要求它启动任务( ) 错 848 绘制词云时,发现词云中的中文全变成了小方框,是由于没有指定合适的中文字体。对 849 Hive 不支持超时重试机制。( ) 错 850 Fusioninsight 中, Hiveserver 将语句进行编译,解析成对应的Yarn任务. Spark 任务或者HDFS 操作,从而完成数转换,分析。() 错 851 Flume 传输的可靠性是指Flume 在传输数据过程中,当下一跳的Flume 节点故障或者数据接收异常时,可以自动切换到另外一路上继续传输?( ) 对 852 假设HDFS 在写入数据是只存 2 份,那么在写入过程中, HDFS Client 先将数据写入Datanode1,再将数据写入Datanode2。( ) 错 853 容量调度器在进行资源分配,现有同级的 2 个队列Q1 和 2,他们的容量均为 30,其中Q1已使用 8，Q2 已使用 14,则会优先将资源分配给 Q1。( ) 对 854 server. channels.chl. transactioncapacity 表示事务大小,即当前channe 支持事务处理的事件个数,可和source 的batchsize 设置为同样大小,但不能小于batchsize( ) 对 855 Flume 架构中,一个sink 可以连接多个channel。( ) 错 856 Fusioninsight 是华为企业级大数据存储,查询,分析的统一平台,能够帮助企业快速构建海量数据信息处理系统，通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。对 857 Fusioninsight Tool 是为技术支持工程师和维护工程师提供的一套健康检查工具,能够检查集群相关节点,服务的健康状态中潜在的问题，并生成健康检査报告。方便技术支持工程和维护工程师快速了解系统的健康状况. 对 858 Kata 是ー个高吞吐.分布式,基于发布订阅的消息系统,利用kafka 技术可在廉价FCServer 上搭建起大规模消息系统。对 859 flink 是ー个批处理和流处理结合的统一计算框架,其核心是一个数据分发以及并行计算的流数据处理引擎。对 860 Spark Streaming 计算基于DStream 将流式计算分解成一系列短小的批处理作业( ) 对 861 导入数据到Hive 表时不会检查数据合法性,只会在读取数据时候检查。对 862 topology 的处理逻辑都在Bolt 中( ) 对 863 Flume 的propertles. protertlses 配置文件中可以配置多个channel 来传输数据. 对 864 驱动型source 是flume 周期性主动去获取数据. 错 865 Hbase 的数据文件File 中一个Keyvalue 格式包含Key, yale, Timestamp, Keytype等内容对 866 Kafka Logs segment 文件命名规全局的第一个segment 从 0 开始,后续每个segment 文件名为上一个全局partionfset(偏移message 数)。对 867 Hive 中“ Group by”指的是通过一定的规将每一个数据集划分成若干个小的数据集然后针对若干个小的数据集进行数据分组处理. 对 868 Hbase 的最小存储单元是Region。错 869 为减少写入磁盘的数据量, mapreduce 支持对MOF( mapoutfile)进行压缩后再写入。对 870 Resourcemanager 采用高可用方案,当Active resourcemanager 发现故障时,只能通过内置的zookeeper 来启动standby的resourcemanager,将其状态切换为active。错 871 Hive 是一种数据仓库处理工具,使用类sql 的HivesqlL 语言实现数据查询功能,所有Hive 的数据都存储在HDFS 中。对 872 Kafka Consumer 写数据总体流程是, consumer 连接指定Topic partition 所在的Leaderbroker.用主动获取方式从 KafKa 中获取消息。对 873 Fusionis 界面上,当收到Kafka 磁盘容量不足告警,且该告警的原因已经排除硬件故障时系统管理员需要考虑扩容解决此问题。对 874 二级索引为提供了按照某些列的值进行索引的能力,二级索引先查索引表,再定位到数据表中的位置,不用全表扫描. 对 875 colocation(同分布)文件级的同分布实现文件的快速访问,避免了因数据迁移带来的大量网络开销( ) 对 876 Hadoop 系统中,如果HDFS 文件系统的备份因子是 3,那么Mapreduce 每次允许task都是从 3 个有副本的机器上传输需要处理错 877 Flume 架构中,一个Source 可以连接多个Channel。对 878 Kafka 中partition replication 之间同步数据,从partition 的leader 复制数据到fo11ower 需要线程( replication FetcheThread），Follower(一个follower 相当于consumer 主动从leader 批量拉取消息的,这极大提高了吞吐量. 对 879 在Flink 中, checkpoint 机制能够保证应用在运行过程中出现失效时,从某一个检查点恢复,在此过程中,流快照是根据数据流入建立的( ) 对 880 Hive 中的“group by”指的是通过一定规则将一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行数据分组处理. 对 881 Hive 中UNION ALL 操作符用于合并两个或多个select 语句的结果集,结果集中,不允许有重复的值错 882 Kafka 是一个高吞吐,分布式,基于发布订阅的消息系统,利用Kafka 技术可在廉价PC Server 上搭建起大规模消息系统。对 883 如果某些Containers 的物理内存利用率超过了配置的内存阈值,但所有Containers的总内存利用率并没有超过设置的Nodemanager 内存值,那么内存使用过多的containers仍可以继续运行。对 884 Fusioninsight HD 系统中, Hbase 支持动态扩展列。对 885 channels 支持事提供较弱的顺序保证,可以连接任何数量的Source 和Sink。对 886 Kafka Producer 读数据总体流程是, Producer 连接任意存活的Broker,请求制定Topic、Partition的Leader 元数据信息,然后直接与对应的Broker 直接连接,发布数据。错 887 Hbase 中penscanner 的过程,会创建两种不同的Scanner 来读取H-File 和Memstore的数据,HFi1e对应的ScanStorefilescanner, Memstore 对应的Scanner 为Memstorescanner。对 888 Spark Streaming 容错机制是指RDD 中任意的Partition 出错,都可以根据其父RDD 重新计算生成,如果父RDD丢失,则需要去磁盘中查找原始数据。对 889 Hbase 的bloomfliter 是用来过滤数据的? 错 890 Fusioninsight 中Hive 包含 2 个角色，hiveserver 和Metastore'? 对 891 Colocation 同分布文件级的同分下买现文件的快速访问,避免了因数据迁移带来的大量网络开销. 对 892 Zookeeper 的增强性包括在审计日志中添加ephemeral node 被刑除的审计日志. 对 893 假设在写入数据时只存 2 份,那么写入过程中, HDFS CLIENT/编将数据写入Datanodel,再将数据写入Datanode2. 错 894 Yarn-client 和Yarn-cluster 主要区是Application Master 进程的区别. 对 895 用户权限管理基于角色的访问控制(RBAC),提供可视化的多组统一的集群中用户权限管理。对 896 对高价值高度聚合的信息和知识的批次处理是大数据行业主要商业诉求. 对 897 Mapreduce 过程中、默认情况下,一个分片就是一个块,也是一个maptask.. 对 898 Flink 采用checkpoint 用程序运行中的容错性。对 899 在Mapreduce 编程中,代码不仅要描述做什么,还要描述具体怎么做。错 900 Flume 的数据流可以根据headers,的信息发送到不同的Channel 中? 对 901 "在Flink 中, checkpoint 机制能明在运行过程中出现失败时,从某一个检查点恢复,在此过程中,流快照是根据数据流入依次创建的。" 对 902 Flume 的数据流可以根据 headers 的信息发送到不同的 channel 中? 对 903 Spark 任务的每个 stage 可划分为 job，划分的标记是 shuffle 错 904 如果 YARN 集群中只有 Default、 QueueA 和 QueueB 子队列，那么允许将他们的容里分别设置为 60%、25%和 22% 错 905 Kafka 是一个分布式的消息发布订阅系统，它只是进行消息的转发，并不会保存消息。错 906 Hadoop 的 NameNode 用于存储文件系统的元数据对 907 Hadoop 系统中，如果文件系统的备份因子是 3，那么每次 MapReduce 任务运行的 task 所需要的文件都要从 3 个有副本的机器上传输需要处理的文件。错 908 HDFS 的 Client 写入文件时，数据的第一副本写入位置是由 NameNode 确定，其他副本的写入位置由 DataNode 确定错 909 RDD 可以从 Hadoop 兼容的文件系统生成，生成之后可以通过调用 RDD 的算子对 RDD 的数据进行部分更新。错 910 HDFS 支持大文件存储，同时支持多个用户对同一个文件的写操作，以及在文件任意位置进行修改错 911 Spark 是基于内存的计算，所有 Spark 程序运行过程中的数据只能存储在内存中错 912 Spark 应用运行时，如果某个 task 运行失败则导致整个 app 运行失败错 913 Flume 传输数据过程中，sink 取走数据并写入目的地后，会将 event从channe 中刪除对 914 HDFS机制中 NameNode 负责管理元数据， Client 端每次读请求都需要从Name Node 的元数据磁盘中读取元数据信息以此获取所读文件在 DataNode 的位置错 915 Spark on YARN 模式下，没有 NodeManager 的节点不能启动 executor 执行task 对 916 Spark 和 Hadoop 都不适用于迭代计算的场景。错 917 Spark 任务的 Executor 可以执行多个 task 对 918 Hadoop 支持数据的随机读写。错 919 NameNode 负责管理元数据信息metadata，client 端每次读写请求，它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。错 920 MapReduce 的 input split 一定是一个 block。错 921 MapReduce适于PB级别以上的海量数据在线处理。错 922 链式MapReduce计算中，对任意一个MapReduce作业，Map和Reduce阶段可以有无限个Mapper，但Reducer只能有一个。对 923 MapReduce计算过程中，相同的key默认会被发送到同一个reduce task处理。对 924 HBase对于空（NULL）的列，不需要占用存储空间。对 925 HBase可以有列，可以没有列族（column family）。错 926 HBase是一套高性能的分布式数据集群，必须在大型机或者高性能的服务器上进行搭建。（）。对 927 HBase是Apache的Hadoop项目的子项目，利用Hadoop HDFS作为其文件存储系统，适合于非结构化数据存储。（）对 928 MapReduce程序可以直接读取HBase内存储的数据内容。（）对 929 使用delete命令将HBase中的一张表进行删除操作。（）错 930 使用Shell命令insert对HBase中的一张表进行数据添加操作。（）错 931 使用Shell命令create在HBase系统中添加新表操作。（）对 932 HBase系统适合进行多表联合查询以及复杂性读写操作。（）错 933 HBase允许创建空表，不需要建立列簇。（）错 934 Java.exe 是 JDK 的编译工具错 935 编译后的 Java 应用程序可由 Javac .exe 解释执行错 936 Java 应用程序编译后生成二进制可执行文件错 937 编译后的 Java 应用程序可直接在操作系统下运行错 938 命令行解释执行 java 应用程序必须包含扩展名 (.class) 错 939 语法错误需要等到运行时才会被发现错 940 标识符中的字母区分大小写错 941 符号常量名必须全部大写错 942 多行注释和文档注释不可以嵌套使用错 943 求余 (%) 的运算结果符号与除数相同错 944 字符串属于基本数据类型错 945 不能使用连续 "="给多个变量赋值错 946 没有特别指明的整数都是属于长整型错 947 Java 的布尔类型与 C 语言相同错 948 赋值运算具有左结合性错 949 编译后的 Java 应用程序可由 Java .exe 解释执行对 950 Java 源程序经编译后生成字节码文件对 951 命令行编译 java 应用程序必须包含扩展名 (.java) 对 952 Java 源程序的文件名必须与 public 类的名称完全一致对 953 任何 Java 程序都必须以类的形式出现对 954 一个 Java 源程序文件中可以定义若干个类对 955 一个 Java 源程序文件中只能定义一个 public 类对 956 Java 系统本身对程序的逻辑错误没有识别能力对 957 只有整型数据可以进行求余 (%)运算对 958 浮点类型数据不能进行求余运算对 959 8 种基本数据类型的类型名全为小写对 960 Java 变量遵从先声明后使用的原则对 961 变量赋初值不能使用连续 "=" 对 962 没有特别指明的浮点数都是属于双精度对 963 Java 标识符的长度没有限制对 964 Java 标识符中可以使用汉字对 965 Java 的字符串必须在一行内写完对 966 ++、-- 运算只适用于变量对 967 关系运算的结果一定为布尔值对 968 逻辑运算的操作数必须是布尔型对 969 赋值运算中的左值必须是变量对 970 在 Flask 项目中定义路由时，只能使用装饰器的方法( )。错 971 在 Flask 中定义路由时，默认监听的 HTTP 方式是 GET( )。对 972 ORM 模型中实现了 3 层映射关系，其中关系数据库中的列映射为类属性 ( )。对 973 在使用 Flask-WTF 自定义表单类时，使用 StringField 表示文本字段( )。对 974 在使用 flask_moment 模块进行格式化日期时间时，不需要进行实例化( )。错 975 使用 Flask 框架时必须要使用 Flask 类实例化一个 app 对象( )。对 976 "在使用 Flask-SQLAlchemy 创建 ORM 模型时，必须要使用 SQLAlchemy 实例化一个 db 对象( )。" 对 977 Jinjia2 模板引擎中提供的 safe 过滤器是用来启动策略 ( )。错 978 在使用 Flask-WTF 自定义表单时需要自定义代码以启动 CSRF( )。错 979 可以使用 get_flashed_messages()全局函数获取 flash 函数闪现的消息列表( )。对 980 Python中用来创建1个空集合的方式是使用一对花括号{}。（）错 981 "执行下列代码后，最终输出结果为201。（）list1=[10,45,201,32,78,55];print(len(list1))" 错 982 "执行下列代码后，输入数字100后，最终的输出结果为 class 'int' 。（）inp=input('请输入一个整数：')print(type(inp))" 错 983 解决汉诺塔的问题使用的思想是函数的递归。（）对 984 集合中的元素都是唯一的，不允许出现重复的元素。对 985 列表和元组的切片方式不同，列表使用的位置索引，元组使用的是键索引。错 986 Python代码”str1=’Hello’;print(str1.swapcase())”执行的结果为‘HELLO’。错 987 Python代码”1>2 or 3<4”执行的结果为True。对 988 Python中代码缩进使用的是空格或Tab，这2种缩进可以混用。错 989 Yarn 可以作为Spark的资源调度框架对 990 scala中基本数据类型和java完全一致错 991 在噪声数据中，波动数据比离群点数据偏离整体水平更大。错 992 "对于大数据而言，最基本、最重要的要求就是减少错误、保证质量。因此，大数据收集的信息量要尽量" 错 993 "一般而言，分布式数据库是指物理上分散在不同地点，但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。" 对 994 大数据仅仅是指数据的体量大。错 995 当今世界四大趋势指的是经济全球化、全球城市化、全球信息化、信息智慧化。对 996 Ganglia 不仅可以进行监控，也可以进行告警。对 997 Block Size 是不可以修改的。错 998 Nagios 不可以监控 Hadoop 集群，因为它不提供 Hadoop 支持。错 999 如果 NameNode 意外终止，SecondaryNameNode 会接替它使集群继续工作。错 1000 Cloudera CDH 是需要付费使用的。错