================单选题======================== 序号 题干 答案 题型 选项A 选项B 选项C 选项D 1 Apriori 算法使用哪个指标筛选项目集(Itemset)?( ) B 单选题 交易编号 (TransactionID) 最小支持度 (Minimum Support) 最小信赖度 (Minimum Confidence) 购买数量 2 SQL 语言中,删除一个表中所有数据,但保留表结构的命令是( )。 A 单选题 DELETE DROP CLEAR REMORE 3 变量的量纲比如以分或者元为单位对下面哪种方法会有影响。( ) C 单选题 方差分析 回归分析 聚类分析 主成分分析 4 分类算法就是按照某种标准给对象贴标签,再根据标签来归类,以下属于分类算法的是( )。 B 单选题 DBSCAN C4.5 K-Mean EM 5 分析顾客的消费行为,以便有针对性的向其推荐感兴趣的服务,属于( )问题。 A 单选题 关联规则挖掘 分类与回归 聚类分析 时序预测 6 关联规则的评价指标是( )。 C 单选题 均方误差、均方根误差 Kappa统计、显著性检验 支持度、置信度 平均绝对误差、相对误差 7 回归分析首要解决的问题是( )。 A 单选题 确定解释量和被解释变量 确定回归模型 建立回归方程 进行检验 8 聚类方法中,以下哪种方法需要指定聚类个数。( ) B 单选题 层次聚类 K 均值聚类 基于密度的聚类 基于网格的聚类 9 "开始将N个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类, 计算新类与其他类的距离, 重复进行两个最近类的合并, 每次减少一类,直至所有的样品合并为一类,此种聚类方法是( )。" C 单选题 K-means SOM 聚类 系统聚类 有序聚类 10 如果数据量较大,哪种聚类算法比较适合?( ) B 单选题 系统聚类 快速聚类(k-means ) A 和 B 都可以 A 和 B 都不可以 11 什么是 KDD?( ) A 单选题 数据挖掘与知识发现 动态知识发现 文档知识发现 领域知识发现 12 适宜采用 DBSCAN 算法的数据形状是( )。 B 单选题 球形 SS形 椭球形 方形 13 数据挖掘中Naive Bayes属于什么方法?( ) B 单选题 聚类 分类 时间序列 关联规则 14 下列选项中,属于关联规则算法的是( )。 C 单选题 决策树、对数回归、关联模式 K均值法、 SOM 神经网络 Apriori算法、 FP-Tree 算法 RBF神经网络、 K 均值法、决策树 15 要查询 wold_books 表中所有书名中以 “中国” 开头的书籍的author, 可用( )语句。 D 单选题 "SELECT author FROM wold_books WHEREbook_name=‘中国*’" "SELECT author FROM wold_books WHEREbook_nameLIKE ‘中国*’" "SELECT author FROM wold_books WHEREbook_name=‘中国%’" "SELECT author FROM wold_books WHEREbook_name LIKE ‘中国%’" 16 下列哪个属性是hdfs-site.xml中的配置( )。 A 单选题 dfs.replication fs.defaultFS mapreduce.framework.name yarn.resourcemanager.address 17 以下不属于监督学习模型的是( )。 C 单选题 支持向量机 朴素贝叶斯 关联分析 线性回归 18 以下四项指标中,不能用于线性回归中的模型比较的是( )。 A 单选题 R 方 调整 R 方 AIC BIC 19 以下选项不属于原始数据来源的是( )。 C 单选题 犯罪记录 抽样调查 统计年鉴 模拟实验 20 以下选项哪个不属于分类算法?( ) D 单选题 KNN算法 逻辑回归 C4.5算法 TF-TDF 算法 21 以下选项中,哪个有可能是 Apriori 算法所挖掘出来的结果?( ) A 单选题 买计算机同时会购买相关软件 买打印机后过三个月会买墨水 卖便携计算机较台式机所获得额外利益 以上皆均不是 22 针对聚类分析,下面说法错误的是( )。 A 单选题 一定存在一个最优的分类 聚类分析是无监督学习 聚类分析可以用于判断异常值 聚类分析即 :物以类聚 , 人以群分 23 HDFS中的数据块(block)默认保存几份?( ) A 单选题 3 份 2 份 1 份 不确定 24 Hadoop集群中存在的最主要瓶颈是( )。 C 单选题 CPU 网络 磁盘 IO 内存 25 以下哪个不是Spark的分布式部署方式?( ) D 单选题 standalone spark on mesos spark on YARN Spark on local 26 Hive是以( )技术为基础的数据仓库。 C 单选题 HDFS MAPREDUCE HADOOP HBASE 27 以下哪个操作是hive不支持的?( ) B 单选题 表增加列 表删除列 表修改列 修改表名 28 以下对hive中表数据操作描述正确的是( )。 C 单选题 hive可以修改行值 hive可以修改列值 hive不可以修改特定行值、列值 以上说法都不对 29 Hive中以下操作不正确的是( )。 D 单选题 load data inpath into table name insert into table name insert overwrite table name insert overwrite into table name 30 下面与Zookeeper类似的框架是哪一个?( ) D 单选题 Protobuf Java Kafka Chubby 31 最早提出大数据时代到来的是( )。 B 单选题 波士顿 麦肯锡 埃森哲 尼尔森 32 大数据的核心价值是( )。 B 单选题 数据交易 数据分析 数据融合 数据处理 33 有序集的中间值或者中间两个值平均是( )。 B 单选题 平均值 中位数 众数 以上都不是 34 无监督学习中应用最广的是( )。 B 单选题 分类算法 聚类算法 关联算法 时序 35 以下哪种说法是错误的。( ) C 单选题 "聚类的部分步骤与分类相似,但度量维度的不同会导致结果不同;" "由于聚类是无监督学习,对聚类的结果没有严格意义的好坏之分" 应通过与理想相似矩阵比较,看分类效果 "对样本数据进行预处理时,对数据进行标准化会影响聚类结果" 36 以下哪种说法不是K-Means算法的优点。( ) D 单选题 收敛较快 迭代次数一般为几次,较神经网络简单 中心点的个数,通常值是在3-5个之间 算法可能收敛到局部最优点 37 以下关于K-Means算法错误的是( )。 D 单选题 K值无法预先判断,只适用于球形类的形状的聚类 算法可能收敛到局部最优点 算法对极值点及噪点较为敏感 中心点的个数,通常值是在8-10个之间 38 满足最小支持度阈值(minsup)的所有项集称为( )。 C 单选题 项 项集 频繁项集 频繁K项集 39 "将巧克力藏在不透明的容器里,将无花果、开心果等健康零食放在透明玻璃罐里。7周内职员少摄入310万卡路里。这属于( )的案例。" A 单选题 关联规则 聚类规则 分类规则 不能确定 40 "( )图形主要用于表示一个样本中各组成部分的数据占全部数据的比例,多用于研究结构性问题。" A 单选题 饼图 条形图 折线图 堆积图 41 以下哪些是制作条形图时的错误做法( )。 D 单选题 "不要让直条太窄,否则会让读者的视线集中在两直条间大片的空白处,直条的宽度应当约为条间距的两倍" 不要用太粗的网格线和三维透视图,这样会遮掩数据并转移读者对数据的注意力 进行比较时,不要用刻度线和网格线,这样会使水平直条的相对长度更加难以辨别 直条应当由最大值排到最小值,特定的直条可用不同的透明度予以强调。 42 关于相关关系有误的是( )。 B 单选题 按相关的程度分为完全相关、不完全相关和不相关 按相关的特点分为单相关和多相关 按相关的方向分为正相关和负相关 按相关的形式分为线性相关和非线性相关。 43 以下哪项不是描述数据离散趋势的常见指标。( ) D 单选题 极差 方差/标准差 四分位数间距 变异系数 44 银行根据客户以往贷款记录情况,将客户分为低风险客户和高风险客户。对一个新来的申请者,银行计算风险,决定接受或拒绝该申请。这属于( )算法的应用。 A 单选题 分类 聚类 关联 回归 45 分析影响变压器正常运行的因素,预测变压器是否有故障,若有故障,故障为放电故障、过热故障、短路故障等的哪一种。这属于( )算法的应用。 A 单选题 分类 聚类 关联 回归 46 神经网络是( )算法的一种。 A 单选题 分类 聚类 关联 回归 47 关于数据分析报告错误的是( )。 C 单选题 展示分析结果 验证分析质量 展示分析过程 提供决策依据 48 日常数据通报型报告的特点错误的是( )。 D 单选题 进度性 规范性 时效性 全面性 49 常用的分箱方法错误的是( )。 C 单选题 等深分箱法 等宽分箱法 等距分箱法 用户自定义区间法 50 关于相关性rA,B说法错误的是( )。 D 单选题 rA,B>0,正相关。A随B的值得增大而增大 rA,B=0,不相关。AB无关 rA,B<0,负相关。A随B的值得增大而减少 不能单纯依据rA,B<0确定AB相关性 51 在数据安全及处理效率方面,不适宜大数据分析的软件是( )。 D 单选题 SAS Stata MatLab SPSS 52 关于中位数描述错误的是( )。 D 单选题 "在有极端数值出现时,中位数作为分析现象中集中趋势的数值,比平均数更有代表性" "主要用于顺序数据,也可用数值型数据,但不能用于分类数据" 各变量值与中位数的离差绝对值之和最小 中位数一般与算数平均值接近 53 对各变量值的连乘积开项数次方根的平均数是( )。 B 单选题 平方平均数 几何平均数 算术平均数 D调和平均数 54 以下对众数的说法中,不对的是( )。 A 单选题 众数是出现的次数 众数是一组数据中出现次数最多的数据数 一组数据中的众数可能不存在 D一组数据中可能存在多个众数 55 将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做( )。 D 单选题 随机抽样 分层抽样 整群抽样 系统抽样 56 定义问题时通常使用以下哪种方法。( ) B 单选题 波特五力竞争分析 5W2H分析法 描述性统计分析 决策树 57 以下哪个不属于波特五力竞争分析模型的内容。( ) C 单选题 潜在竞争者威胁 替代品威胁 企业外部的机会 供应商议价能力 58 下列属于推断性统计分析的方法是( )。 D 单选题 大数定律 中心极限定理 相关分析 回归分析 59 一元回归分析与多元回归分析的主要区别是( )。 B 单选题 因变量个数不同 建立回归模型的计算量不同 回归分析原理不同 回归分析步骤不同 60 用于展示文本信息出现频率比较高的关键词的图形是( )。 A 单选题 词云图 气泡图 热力图 散点图 61 马斯洛需求理论将人的需求从低到高依次排序是( )。 D 单选题 "生理需求 安全需求 社交需求 自我实现需求 尊重需求" "生理需求 安全需求 尊重需求 社交需求 自我实现需求" "安全需求 生理需求 尊重需求 自我实现需求 社交需求" "生理需求 安全需求 社交需求 尊重需求 自我实现需求" 62 "分类通常会把模型数据集拆分成两个部分,其中一个部分用来评估模型好与不好,这个部分叫做()。" B 单选题 训练集 测试集 已知数据 未知数据 63 下列不属于非平稳时间序列的确定性因素是( )。 A 单选题 规则变动 长期趋势 季节变动 循环变动 64 时间序列模型不能应用到以下哪种情况。( ) D 单选题 系统描述 预测未来 决策和控制 行业分析 65 以下不属于时间序列平滑法预测的方法是( )。 B 单选题 移动平均法 ARIMA模型 指数平滑法 Winter预测法 66 以下不属于随机森林算法特点的是( )。 C 单选题 能处理比较高维的数据 模型的泛化能力强 模型的运行速度不快 有很强的抗干扰能力 67 以下不属于消费者购买行为分析的产品因素的是( )。 B 单选题 便利信息 偏好信息 价格信息 评价信息 68 显著性检验中的P值小于多少时,可以认定为绝对显著相关。( ) C 单选题 1 0.05 0.01 0.001 69 以下哪个不属于数据分析报告的开篇部分。( ) A 单选题 索引 前言 目录 标题 70 以下哪个部分不是一篇数据分析报告必须有的。( ) D 单选题 标题 正文 结论与建议 附录 71 用定期数据分析报表作为依据的反映计划执行情况的数据分析报告是( )。 C 单选题 专题分析报告 综合分析报告 日常数据通报 实时运营报告 72 关于MapReduce的说法正确的是( )。 D 单选题 MapReduce1.0用YARN框架来进行资源调度的 MapReduce是基于内存计算的框架 MapReduce是分布式文件存储系统 "MapReduce1.0既是一个计算框架又是一个资源调度框架" 73 关于Hadoop MapReduce 分片(spit)概念,下列说法不正确的是( )。 D 单选题 Hadoop为每个split创建一个Map任务 split 的多少决定了Map任务的数目 "大多数情况下,理想的分片大小是一个HDFS块对应一个spit" split 是一个物理概念 74 Hadoop组件在企业应用中,能用于数据挖掘的产品有( )。 C 单选题 Hive Pig Mahout Hbase 75 在Spark生态组件中,哪个产品可用于基于实时数据流的数据处理( )。 C 单选题 Spark Core Spark Sql Spark Streaming MLlib 76 请问以下哪个命令组成是错误的? B 单选题 sbin/stop-dfs.sh sbin/hdfs dfsadmin -report bin/hadoop namenode -format bin/hadoop fs -cat /hadoopdata/my.txt 77 以下哪种不是Hive支持的数据类型? D 单选题 Struct Int Map Long 78 Spark 原生开发语言是( )。 A 单选题 Scala Java PyPhtthon R语言 79 "关于MapReduce Shuffle过程合并(combine)操作,两个健值对<”a”,1>和<“a”,1>经过合并操作结果为( )。" A 单选题 <“a”,2> <“a”,<1,1>> <“a,a”,2> <“a,a”,<1,1>> 80 下列关于网络用户行为的说法中, 错误的是( ) 。 C 单选题 网络公司能够捕捉到用户在其网站上的所有行为 "用户离散的交互痕迹能够为企业提升服务质量提供参考" 数字轨迹用完即自动删除 用户的隐私安全很难得以规范保护 81 关于HBase shell命令,哪个命令是使表无效。( ) B 单选题 alert disable drop 以上都不是 82 Hive中的数据类型,下面说正确的是( )。 D 单选题 TINYINT,1个字节(8位)有符号整数 SMALLINT,2个字节(16位)有符号整数 INT,4个字节(32位)有符号整数 以上都正确 83 关于MapReduce优点,下列说法不正确的是( )。 D 单选题 高容错性 适合PB级以上海量数据的离线处理 良好的扩展性 适合做实时计算 84 Hadoop MapReduce 支持多种语言编程,下列说法不正确的是( )。 D 单选题 可以用JAVA语言编写MapReduce应用程序 可以用C/C++语言编写MapReduce应用程序 可以用Python语言编写MapReduce应用程序 可以用javascript语言编写MapReduce应用程序 85 在Spark生态组件中,哪个产品可用于复杂的批量数据处理。( ) A 单选题 Spark Core Spark Sql Spark Streaming MLlib 86 HBase表中每个cell的多版本是通过( )表示的。 A 单选题 timestamp rowkey blockid cellid 87 "下列国家的大数据发展行动中, 集中体现“重视基础、 首都先行” 的国家是( ) 。" D 单选题 美国 日本 中国 韩国 88 下列关于计算机存储容量单位的说法中, 错误的是() 。 C 单选题 1KB<1MB<1GB 基本单位是字节(Byte) 一个汉字需要一个字节的存储空间 一个字节能够容纳一个英文字符, 89 Hadoop组件在企业应用中,能用于大数据集实时查询的产品有( )。 D 单选题 Hive Pig Mahout Hbase 90 在Spark生态组件中,哪个产品可用于基于历史数据的交互式查询。( ) B 单选题 Spark Core Spark Sql Spark Streaming MLlib 91 在Hadoop生态组件中,哪个产品可用于复杂的批量数据处理。( ) A 单选题 MapReduce、Hive Impala Storm Mahout 92 下面关于使用hive的描述中不正确的是? D 单选题 "hive中的join查询只支持等值链接,不支持非等值连接" hive的表一共有两种类型,内部表和外部表 hive默认仓库路径为/user/hive/warehouse/ hive支持数据删除和修改 93 关于HBase下面说法正确的是( )。 D 单选题 "HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列" "每个值是一个未经解释的字符串,没有数据类型,程序员要自己去对它进" "用户在表中存储数据,每一行都有一个可排序的行键和任意多的列" 以上说法都正确 94 万维网之父是( ) 。 C 单选题 彼得· 德鲁克 舍恩伯格 蒂姆· 伯纳斯-李 斯科特· 布朗 95 BIRCH 是一种( )。 B 单选题 分类器 聚类算法 关联分析算法 特征选择算法 96 数据挖掘算法中,下列关于聚类的说法中,错误的是( )。 B 单选题 "不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别" 要求同类数据的内容相似度尽可能小 要求不同类数据的内容相似度尽可能小 "与分类挖掘技术相似的是,都是 要对数据进行分类处理" 97 为什么DBSCAN 算法难以有效处理高维数据。( ) D 单选题 数据的形状太复杂 簇的大小未知 噪声点过多 开销过大 98 ROC曲线是验证模型的常用方法,曲线越凸向哪个角,代表模型效果越理想?( ) A 单选题 左上角 右上角 左下角 右下角 99 贝叶斯决策是根据( )进行决策的一种方法。 D 单选题 极大似然概率 先验概率 边际概率 后验概率 100 "簇评估的作用有( )。①确定数据集的聚类趋势。②确定正确的簇个数。③比较两个簇集,确定那个更好。④不引用附加信息,评估聚类分析结果对数据拟合情况" D 单选题 ①② ②③④ ①②③ ①②③④ 101 存在关联规则为 A → B,此规则的confidence为 80%,则代表( )。 C 单选题 买 B 商品的顾客中,有 80%的顾客会同时购买 A 同时购买 A,B 两商品的顾客,占所有顾客的 80% 买 A 商品的顾客中,有 80%的顾客会同时购买 B "两商品 A,B 在交易数据库中同时被购买的机率为80%" 102 对 Apriori 算法,下列选项中表述有误的是( )。 C 单选题 Apriori 算法是关联分析中最常用的算法之一。 "应用 Apriori 算法时,需要先设定模型的最小支持度、最小置信度等阈值。" "应用 Apriori 算法时,输入的数据可以是连续型数据也可以是离散型数据。" "Apriori 算法扫描数据库的次数依赖于最大频繁项集中项的数量。" 103 关于逻辑回归 (Logistic regrssion)因变量和自变量的说法中,正确的是( )。 B 单选题 逻辑回归的因变量为数值变量 逻辑回归的因变量为定性变量 逻辑回归的自变量是定性变量 逻辑回归的因变量只能有两种取值 104 基于规则的分类器有Aprior、随机森林,还有( )。 A 单选题 C4.5 KNN Naive Bayes ANN 105 假设检验中显著性水平是( )。 B 单选题 推断时犯取伪错误的概率 推断时取伪弃真的概率 正确推断的概率 是推断的可信度 106 将复杂的通讯地址简化成东、南、西、北、中五个类别,是在( )进行? B 单选题 数据正规化 数据一般化 数据离散化 数据整合 107 矩估计的基本原理是( )。 A 单选题 用样本矩估计总体矩 使得似然函数达到最小 小概率事件在一次试验中是不可能发生的 使得似然函数达到最大 108 缺失数据(Null Value)的具体处理方法有很多种,下列哪种方法可得到较准确的结果?( ) B 单选题 填入一个通用的常数值,例如填入 " 未知 /Unknown 把填补遗缺值的问题当作是分类或预测的问题 填入该属性的整体平均值 填入该属性的整体中位数 109 使用多个分类器的预测来提高分类准确率的技术称为( )。 A 单选题 集成 (ensemble) 聚集 (aggregate) 合并 (combination) 投票 (voting) 110 "数据挖掘分析中将原始数据分为训练数据集和测试数据集两部分, 其中训练数据集的作用是( )。" C 单选题 用于比较不同模型的预测准确度 用于对模型的效果进行无偏的评估 用于构造预测模型 用于选择模型 111 统计图形中,常用于检查异常值的是( )。 B 单选题 Q-Q图 箱线图 帕累托图 气泡图 112 "下表为一交易数据,请问 a → c 的支持度(Support)为( )。TID ItemsBought 1 a,b,c2 a,c3 a,e4 b,e,g" B 单选题 0.75 0.5 1 0.66600000000000000 113 下列有关回归分析的说法,错误的是( )。 D 单选题 "回归分析的变量之间要有实际意义,不能把毫无关联的两种现象随意进行回归分析, 要结合专业知识对两事物之间是否存在因果关系作出合理解释和结论。" 在进行线性回归分析进行的数据准备的时候,要求因变量 y 和自变量 x 都是符合总体正态的随机变量。 回归直线不要随意外延 所有非线性回归都可以转化为线性回归 114 "小王养了一头猪和一只鸡,一天,猪问鸡:“主人去哪里了”,猪含泪答道:“去买粉条了”。鸡很同情的说:“老弟,来世再见。”以上对话体现了数据分析方法中的( )。" A 单选题 关联 自然语言处理 聚类 文本挖掘 115 "已知 α={a, b, d}是满足最小支持度的频繁项集,若不考虑置信度,由α 可产生关联规则的数量为()。" D 单选题 3 4 5 6 116 以下表述错误的是( )。 C 单选题 冗余属性不会对决策树的准确率造成不利的影响 子树可能在决策树中重复多次 决策树算法对于噪声的干扰非常敏感 寻找最佳决策树是 NP 完全问题 117 以下哪一项属于时间序列可以解决的问题?( ) B 单选题 信用卡发卡银行发掘出的潜在的卡奴 基金经理人针对某股票做出未来价格预测 移动公司将用户区分为数个群体 以上均不是 118 以下算法中,不属于基于原型的聚类算法的是( )。 D 单选题 EM算法 模糊 C 均值 SOM CLIQUE 119 以下有关数据清洗的表述中,正确的是( )。 C 单选题 "运用验证数据集中变量的统计量对训练集中的变量进行数据清洗" "运用验证数据集中变量的统计量对验证集中的变量进行数据清洗" "运用训练数据集中变量的统计量对验证集中的变量进行数据清洗" 以上均不对 120 以下针对缺失值的处理方法中,当一个连续变量缺失值超过85%,则哪种最合理?( ) B 单选题 直接使用该变量 "根据是否缺失,生成指示变量,仅使用指示变量作为解释变量" 使用多重插补的方法进行缺失值填补 直接删除该变量 121 "在建立线性回归 (Linear Regression) 之前我们可以利用何种方法挑选重要属性,以降低模型的复杂度?( )" A 单选题 皮尔森相关系数 卡方检定 T-检定 Z-Score 122 "在做前期样本规划时,训练集 (Train) 、 验证集 (Validation) 和检验集(Test) 样本量分配方案哪个比较适合?( )" D 单选题 训练 50%,验证 0%,检验 50% 训练 100%,验证 0%,检验 0% 训练 0%,验证 100%,检验 0% 训练 60%,验证 30%,检验 10% 123 "字段cost 的最大最小值分别是 1200元和 9800元。利用最大-最小规范化的方法将属性的值映射到0至 1的范围内。则cost值为 7360元将被转化为( )。" D 单选题 0.751 0.163 0.457 0.716 124 关于Hadoop单机模式和伪分布式模式的说法正确的是( )。 D 单选题 两者都起守护进程,且守护进程运行在一台机器上 单机模式不使用HDFS,但加载守护进程 两者都不与守护进程交互,避免复杂性 "后者比前者增加了HDFS输入输出以及可检查内存使用情况" 125 下列关于Hadoop API的说法错误的是( )。 A 单选题 Hadoop的API只适用于HDFS文件系统 "Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的" FileStatus对象存储文件和目录的元数据 "FSDataInputStream是java.io.DataInputStream的子类" 126 关于MapReduce框架中一个作业的reduce任务数,下列说法正确的是( )。 C 单选题 由自定义的Partitioner来确定 是分块总数目的一半 "可以由用户来自定义,通过JobConf.setNumReducetTask(int)来设定一个作业中reduce的任务数目" 由MapReduce随机确定其数目 127 HBase表中每个cell的多版本是通过( )表示的? A 单选题 timestamp rowkey blockid cellid 128 Mac OS 系统的开发者是( ) 。 C 单选题 微软公司 惠普公司 苹果公司 IBM 公司 129 HBase依赖( )技术框架提供消息通信机制。 A 单选题 Zookeeper Chubby RPC Socket 130 "某公司的总会计师决定用决策模型应对不确定性问题。 目前,公司有两种方案可供选择, 与另一跨国公司联合投资或不联合投资。 总会计师提供了以下信息:方案 1:联合投资的结果和概率:成功概率为 60%,投资成本为1200万 元,投资成功的现金流为 2000万元,投资不成功的现金流为 200万元,其他成本为 0元,至此时已发生的成本为120万元。方案 2:不联合投资的结果和概率:至此时已发生的成本为 120万元,其他成本为 500000元。下列哪项分别正确地反映了联合投资与不联合投资的期望值?()" C 单选题 800000元和-1700000元 -700000元和-500000元 800000元和-500000元 -700000元和-1700000元 131 以下关于DBSCAN算法说法错误的是( )。 D 单选题 "如果样本集的密度不均匀、聚类间距差相差很大时,聚类质量较差;" 如果样本集较大时,聚类收敛时间较长; "调参相对复杂,不同的参数组合对最后的聚类效果有较大影响。" 聚类结果可能有偏倚. 132 "( )表示在先决条件X发生的情况下,由关联规则“X→Y”推出Y的概率。即在含有X的项集中,含有Y的可能性。" A 单选题 置信度 支持度 关联度 以上都不是 133 找出这组数据:23、29、20、32、24、21、33、25 的中位数。( ) B 单选题 23 24 27 29 134 17、19、22、24、25、28、34这组数的四分位差是( )。 C 单选题 24 12 9 D 17 135 以下不能进行系统日志数据采集的工具是( )。 B 单选题 Hadoop Python Scribe Flume 136 以下不属于分类模型评估中基于比率维度的指标是( )。 C 单选题 KS值 特异性 Kappa统计量 Lift值 137 分类模型评估指标呈现中,表示用了模型跟不用模型之间的差异的曲线叫做( )。 B 单选题 ROC曲线 Lift曲线 KS曲线 捕获率曲线 138 "如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)" D 单选题 200 40000 400 1200 139 以下关于Hive操作描述不正确的是( )。 D 单选题 "Hive 是一个建立在hadoop文件系统上的数据仓库架构,可以用其对HDFS上" Hive依赖于MapReduce 处理数据 "Hive的加载数据时候,可以用local进行修饰,表示从某个本地目录下加载数据" Hive一般可以用于实时的查询分析 140 "倒传递神经网络(BP 神经网络)的训练顺序是什么(1:调整权重 ; 2:计算误差值 ;3:利用随机的权重产生输出的结果)( )。" D 单选题 231 312 213 321 141 "DBSCAN 算法的过程是( )。① 删除噪声点。② 每组连通的核心点形成一个簇。③ 将所有点标记为核心点、边界点和噪声点。④ 将每个边界点指派到一个与之关联的核心点的簇中。⑤ 为距离在 Eps 之内的所有核心点之间赋予一条边。" B 单选题 ①②④⑤③ ③①⑤②④ ③①②④⑤ ①④⑤②③ 142 关于数据挖掘的方法论 CRISP-DM 说法正确的是( )。 B 单选题 "这是 SPSS 公司,Daimler Chrysler 提出的数据挖掘流程" "主要分为六步,业务理解,数据理解,数据准备,模型搭建,模型评估与 模型发布" 该方法论已经成功的在 SAS EM 中进行了实施 "这六个过程有严格的前后顺序, 分析过程中不能逆转或者跳转" 143 "人工神经网络(ANN)是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。下列选项中,有关人工神经网络的描述不正确的是( )。" A 单选题 神经网络对训练数据中的噪声非常鲁棒 可以处理冗余特征 训练 ANN 是一个很耗时的过程 至少含有一个隐藏层的多层神经网络 144 为什么要在类神经网络中计算误差值?( ) C 单选题 调整输入值 调整隐藏层个数 调整权重(Weight) 调整真实值 145 下列选项中,哪个是对分类器效果验证指标中准确率的正确表述。( ) C 单选题 预测为正的数据在总数据中的比例 预测正确的数据在总数据中的比例 预测为正的数据中实际为正的数据所占比例 实际为正的数据中被预测为正的数据所占比例 146 下列有关 C4.5 算法的说法中不正确的是( )。 A 单选题 每个节点的分支度只能为 2 使用 gain ratio 作为节点分割的依据 可以处理数值型态的字段 可以处理空值的字段 147 以下对最近邻分类算法(KNN)的说法错误的是( )。 C 单选题 "它使用具体的训练实例进行预测,不必维护源自数据的模型" 分类一个测试样例开销很大 最近邻分类器基于全局信息进行预测 可以生产任意形状的决策边界 148 以下有关聚类算法中 K-means和DBSCAN说法错误的是( )。 A 单选题 "K 均值会丢弃被它识别为噪声的对象,而 DBSCAN一般聚类所有对象。" "K 均值使用簇的基于原型的概念,而 DBSCAN 使用基于密度的概念。" "K 均值很难处理非球形的簇和不同大小的簇,DBSCAN 可以处理不同大小和不同形状的簇。" "K 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是 DBSCAN 会合并有重叠的簇。" 149 以下有关主成分分析,正确的是( )。 A 单选题 "保留多少个主成分取决于累计方差在方差总和中所占百分比" 一般选择 50%以上 选择前两个就可以 选择的数目和变量的个数一致 150 在 ID3算法中信息增益是指( )。 D 单选题 信息的溢出程度 信息的增加效益 熵增加的程度最大 熵减少的程度最大 151 指数平滑法中,下面哪个指标可以反映对时间序列资料的修正程度?( ) A 单选题 平滑常数 季节指数 跨越期 指数平滑数初始值 152 Hbase中的Compaction过程发生在什么时候?( ) C 单选题 MemStore发生flush的时候 HLog大小达到一定阈值的时候 StoreFile文件个数达到一定阈值的时候 HFile写入HDFS的时候 153 Hbase中以下对于LSM的描述正确的是( )。 A 单选题 LSM的读操作和写操作是独立 LSM的读操作和写操作不是独立 LSM并不区分读和写 LSM中读写是同一种操作 154 如果要给队列QueueA设置容量为30%,应该设置哪个参数( )? C 单选题 "yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent" "yarn.scheduler.capacity.root.QueueD.user-limit-factor" yarn.scheduler.capacity.root.QueueA.capacity yarn.scheduler.capacity.root.QueueA.state 155 Spark是用以下哪种编程语言实现的( )? D 单选题 C C++ JAVA Scala 156 关于Hive中的桶说法不正确的是( )? A 单选题 每个桶是一个目录 建表时指定桶个数,桶内可排序 数据按照某个字段的值Hash后放入某个桶中 对于数据抽样、特定join的优化很有意义 157 哪一项不属于Hive的流控特性( )? B 单选题 已经建立的总连接数阈值控制 某个特定用户已经建立的连接数阈值控制 每个用户已经建立的连接数阈值控制 单位时间内所建立的连接数阈值控制 158 下面对Streaming中基础概念说法不正确的是( )? C 单选题 Topology是streaming中运行的一个实时应用程序 Nimbus负责资源分配和任务调度 "Spout是在一个topology中接受数据然后执行处理的组件" Worker运行具体处理组件逻辑的进程 159 Flume支持多级级联的sink类型是( )? B 单选题 hdfs sink avro sink file roll sink hbase sink 160 关于Kafka的基本概念描述错误的是( )? C 单选题 Kafka集群包含一个或多个服务实例,这些服务实例被称为Broker 每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic 每个Consumer属于多个的Consumer Group "Kafka将Topic分成一个或者多个Partition,每个Partition在物理上对应一个文件夹,该文件夹下存储这个Partition的所有消息" 161 如下哪项不是ZooKeeper的关键特性( )? B 单选题 最终一致性 延时性 可靠性 等待无关性 162 下列选项中无法通过大数据技术实现的是?( ) A 单选题 商业模式发现 信用评估 商品推荐 运营分析 163 "假设每个用户最低资源保障设置为yarn,scheduler,capacity,root,QueueAminimum-user-limit-percent=24,则以下说法错误的是?( )" D 单选题 "第3个用户提交任务时,每个用户最多获得33.33%的资源" "第2个用户提交住务时,每个用户最多获得50%的资源" "第4个用户提交任务时,每个用户最多获得25%的资源" "第5个用户提交任务时,每个用户最多获得20%的资源" 164 Spark自带的资源管理框架是?( ) A 单选题 Standal one Mesos YARN Docker 165 关于RDD,下列说法错误的是?( ) B 单选题 RDD具有血统机制(Lineage) RDD默认存储在磁盘 RD是一个只读的,可分区的分布式数据集 RD是Spark对基础数据的抽象 166 关于Hive 在Fusioninsight HD 中的架构描述错误的是?( ) A 单选题 "只要有一个Hiveserver 不可用,整个Hive 集群便不可用。" "Motastore 用于提供元数据服务,依赖于DBService" "在同一时间点,HiveServer 只要一个处于Active 状态,另一个则处于Standby 状态" "Hiveserver 负责接收客户端请求,解析,执行 HQL命令并返回查询结果" 167 大数据时代, 数据使用的关键是( ) A 单选题 数据收集 数据存储 数据分析 数据再利用 168 下列关于数据交易市场的说法中, 错误的是( ) 。 B 单选题 数据交易市场是大数据产业发展到一定程度的产物 商业化的数据交易活动催生了多方参与的第三方数据交易市场 "数据交易市场通过生产数据、 研发和分析数据, 为数据交易提供帮助" 数据交易市场是大数据资源化的必然产物 169 在Fusioninsiehtaanarer 界面中,对Loader 的操作不包括下列哪个选项?( ) A 单选题 切换Loader 主备节点 启动Loader 实例 配置Loader 参数 查看Loader 服务状态 170 创建Loader 作业中,可以在以下哪个步骤中设置过滤器类型?( ) A 单选题 输入设置 转换 基本信息 输出 171 kafka-cluster mirroring 工具可以实现以下那些功能?( ) A 单选题 kafka 集群数据同步方案 kafka 单集群内数据备份 kafka 单集群内数据恢复 以全部不对 172 以下关于Kafka Partition 偏移量的描述不正确的是?() D 单选题 每条消息在文件中的位置称为offset(偏移量) 消费者通过( offset/.partition. topic)跟踪记录 唯一标记一条消息 Offset 是一个String 型字符串 173 RDD 有Transformation 和Action 算子,下列属于Action 算子的是?( ) B 单选题 map saveASTexFile Filter reducebykey 174 以下关于Hive SQL 基本操作描述正确的是?( ) D 单选题 创建外部表必须要指定Location 信息 "创建外部表使用external 关键字,创建普通表需要指定internal 关键字" 加教数据到Hive 时源数据必列是HDFS 的一个路径 创建表时可以指定列分割符 175 "在Zookeeper 和Yarn 的协同工作中,当Active Resourcemanager 产生故障时, StandbyResourcemanager 会从以下哪些目录中获取Application 相关信息?( )" B 单选题 metastore Statestore Statestore Warehouse 176 HDFS 的副本放置策略中,同一机架不同的服务器之间的距离是( ) B 单选题 3 2 1 4 177 Zookeeper 的Scheme 认证方式不包括以下哪项?() B 单选题 digest sasl auth world 178 下列选项中适合Mapreduce 的场景( ) D 单选题 实时交互计算 迭代计算 流式计算 离线计算 179 下列哪个命令是从HDFS 下载日录/文件到本地的?( ) C 单选题 dfs -put dfs -cat dfs -get dfs -mkdir 180 Hbase 的主Master 是如何选举的? C 单选题 由Regionserver 进行裁决 Master 为双主模式,不需要进行裁决 通过Zookeeper 进行裁决 随机选举 181 关于Hive 与Hadoop 其他组件的关系。以下描述错误的是?( ) D 单选题 Hive 最终将数据存储在HDFS 中 Hive 是Hadoop 平台的数据仓库工具 HQL 可以通过Mapreduce 执行任务 Hive 对Hbase 有强依赖 182 Hbase 的Region 是由哪个服务进程来管理的?( ) A 单选题 HRegionserver Zookeeper HMaster DataNode 183 以下关于Flink 关键特性描述不正确的是? A 单选题 Sparkstreaming 与Flink 相比,时延更低 "F1ink 流式处理引擎能够同时提供支持流处理和批处理应用的功能" "与Fusioninght HD 中的Streaming 相比,FIink 具有更高的吞吐量" checkpoint 实现了Flink 的容错 184 Kafka Cluster Mirroring 工具可以实现以下哪项功能? A 单选题 Kafka 跨集群数据同步方式 Kafka 单集群内数据备份 Kafka 单集群内数据恢复 以上全不正确 185 Fusion insight 产品中,关乎Kafka 说法不正确的是? B 单选题 Kafka 强依赖Zookeeper Kafka 的服务端可以产生消息 Kafka 的部署的实例个数不得小于 2 "Consumer 作为Kafka 的客户端角色专门进行消息的消费" 186 为了提高Kafka 的容错性, Kafka 支持Partition 的复制策略,以下关于Leader Partition和Follow Partition 的描述错误的是( ) C 单选题 "Kafka 针对Partition 的复制需要选出一个Leader。由该Leader 负责Partition 的读写操作。其他的副本节点只是负责数据同步" "由于Leader Server 承載了全部的请求压力。因此从集群的整体考虑, Kafka 会将Leader.均衡的分散在每个实例上,来确保数据均衡" "一个Kafka 集群各个节点间不可能互为Leader 和Flower" 如果Leader 失效。那么将会有其他fol lower 来接管(成为新的Leader) 187 下列关于Flink barrier 描述错误的是? C 单选题 "一个barrier 将本周期快照的数据与下ー个周期快照的数据分隔开来" barrier 是F1ink 快照的核心 在插入barrier 的时候,会暂时阻断数据流 "barrier 周期性插入到数据流中,并作为数湉流的一部分随之流动" 188 关于fusion Insight HD Streaming 的Supervisor 描述正确的是? B 单选题 "Supervisor 是在Topology 中接受数据然后执行处理的组件" "Supervisor 负责接受Nimbus 分配的任务,启动和停止属于自己管理的Worker 进程" Supervisor 负责资源分配和任务调度 supervisor 是运行具体处理逻辑的过程 189 "Hadoopz中yarn.scheduler.capacity. root. Queueafinim. m-user-limit-percent设置为 50,下面说法错误的是?" D 单选题 "一个用户提交任务,可以使用Queue 的 100%的资源。" "如果Queue 中已经有 2 个用户的任务运行,这时第3 个用户提交的任务需要等待释放资源。" Queue 中必须保障毎个用户至少得到 50%的资源 Queuea 中的每个用户最多只能获得 50%的资源 190 Streaming 主要通过zookeeper 提供以下的哪项实现事件侦听? B 单选题 分布式锁机制 Watcher Checkpoint ACK 191 Zookeeper 在分布式应用中主要的作用不包括以下哪些选项? C 单选题 选举Master 节点 保证各节点上数据的 分配集群资源 存储及群中 192 HDFS 中Name node 的主备仲裁,是由哪个组件控制的( ) D 单选题 HDFS Client Nodemanager Resourcemanager Zookeeper Failover Controller 193 安装fusioninsight HD 的Streaming 组件是, Nimbus 角色要求安装几个节点? C 单选题 4 3 2 1 194 Fusioninsight HD 系统审计日志不可以记录下面哪些操作? C 单选题 手动清除告警 启停服务实例 查询历史监控 除服务实例 195 Flink 的数据转换操作在以下哪些环节中完成( )? B 单选题 channel Transformation sink source 196 Fusioninsight Manager 用户权限管理不支持哪个配置? D 单选题 给用户配置角色 给用户组配置角色 给角色配置权限 给用户组配置权限 197 以下哪个不属于Hadoop 中Mapreduce 组件的特点? C 单选题 高容错 良好的扩展性 实时计算 易于编程 198 Hbase 的某张表的Rowkey 划分splitkey 为 9.E.a.2.请问表里面有几个Region? C 单选题 6 3 5 4 199 为了保障流应用的快照存储的可靠性,快照主要存储在哪里? D 单选题 jobmanager 的内存中 可靠性高的单机数据库中 本地文件系统中 hdfs 中 200 在fusionlnsigh 产品中,关于kafka 的 topic.以下描述不正确的是? B 单选题 topic 的partition 数量可以创建时配置 每个topic 只能被分成一个partition 区 "每条发布到kafka 的消息都有一个类别,这个类别被称为topic.也可以理解为一个存储消息的队列" "每个partition 在存储层面对应一个 1og 文件,10g文件中记录了所有的消息数据" 201 Kafka 集群在运行期间,直接依赖于下面哪些组件? B 单选题 spark zookeeper hdfs hbase 202 关于fusioninsight master 界面hive 日志收集的描述中,哪个不对? C 单选题 "可指定实例进行日志收集,比如指定收集metastore的日志" 可指定节点ip 进行下载某个ip 的日志 "可指定特定用户进行日志收集,例如仅下载用户的日志" "可指定时间进行日志收集,如:只收集 2016-1-1到 20161-10 的日志" 203 fusioninsight 对于管理操作,下列错误的是? C 单选题 可对服务进行启停重启 可以添加和卸载服务 常用服务隐藏或显示 可查看服务的当前状态 204 在Webhcat 架构中,用户能够通过安全的 HTTPS 协议执行以下哪些操作? D 单选题 执行Hive DDL 操作 运行Mapreduce 任务 运行Hive HOL 任务 以上全都正确 205 在Flink 技术架构中,以下哪项是流处理和批处理的计算引擎? B 单选题 Standalone Runtime Flink Core Datasteam 206 spark 的核心模块是 B 单选题 spark streaming spark core mapreduce spark sql 207 hbase 的底层数据以()的形式存在的? A 单选题 keyvalue 列存储 行存储 实时存储 208 Kafka Cluster Mirroring 工具可以实现以下哪些功能? A 单选题 Kafka 数据同步方案 Kafka 单集群内数据备份 Kafka 但集群内数据恢复 以上全不正确 209 硬件故障被认为是常态,为了解决这个问题,HDFS 设计了副本机制。默认情况下HDFS 会存( )份? A 单选题 3 5 2 4 210 关于HIVE 的描述不正确的? B 单选题 Hive 最佳使用景是大数据的批处理作业 Hive 可以实现大规模数据集上实现低延迟快速的查询 "Hive 构建在基于静态批处理的Hadoop 之上, Hadoop 通常有较高的延迟并且在作业提交和调度的时候需要大量开销" "Hive 查询操作过程严格遵循Hadoop Mapreduce的作用执行模型,Hive 将用户的HveQL语句通过解释器转换为Mapreduce Hadoop 集群上" 211 Flume 数据采集的过程中,下列选项中对数据进行过滤和修饰的是? C 单选题 Channel Channel selector Interceptor Sink 212 以下关于fusioninsight CTbase 的描述不正确的是? B 单选题 "CThase 的读写数据接口,统一封装了行定义的接口,自动进行冷字段的合并和解析,不需要在应用程序中进行合并和解释" CT HBase 是基于 Hbase 的聚簇表开发框架 CTHbase 提供了一套Webui 进行元数据定义,提供了只管医用的表设计工具,降低表设 CTHbase 的java API 提供一套Hbase连接池管理的接口,内部进行连接共享,减少客户端应用开发难度。 213 YARN 中设置队列Queue的最大使用资源量,需要配置哪个参数? B 单选题 "yarn scheduler capacity. root. Queueaminimum-user-limitmpercent" "yarn. scheduler capacity. root. Queueamaximum-capacity" "yarn. scheduler capacity. root. Queuea,minimum. user-limit-factor" yarn scheduler capacity. root.Queuea/stat 214 以下哪些选项属于Hive 的数据存储模型? ABCD 单选题 桶 数据库 分区 表 215 Hive 中的这条命令"ALTER TABLE employee ADD columns( columnl string)."是什么含义? C 单选题 创建表 删除表 添加列 修改文件格式 216 下列关于Sparksereaming 和Streaming 比较说法不正确的是? B 单选题 "Sparkstreaming 个微批处理框架,事件需要积累到一定量时才进行处理" Streaming 的执行逻辑是即时启动,运行完后再回收 "Sparkstreaming 的吞吐量大约是Streaming 的 2-5 倍" Spaalstreaming 事件处理时延比Streaming 更高 217 创建Loader 作业时哪个步骤中设置Map 数? A 单选题 输出 输入设置 转换 基本信息 218 Kafka 集群中, Kafka 服务端的角色是? A 单选题 Broker Consumer Zookeeper Producer 219 关于Dataset,下列说法不正确的是? D 单选题 Dataset 不需要反序列化就可执行大部分操作 Dataset 是一个由特定域的对象组成的强类型集合 Dataset 与RDD 高度类似,性能比RDD 好 "Dataset 执行sort, filter, shuff1e 登操作需要进行反序列化" 220 "使用Hbase 客户端批量写入 10 条数据,某个Hregionserver 节点上包含该表的 2 个Region,分别为A 和B,10 条数据中有 6 条属于 A,4 条属于B,请问写入这 10 条数据需要向该Hregion Server 发送几次RPC 请求?" D 单选题 10 6 2 1 221 Hive 不适用于以下哪个场景? D 单选题 非实时分析,例如日析 数据挖掘,例如用户析,区域展示 数据汇总,例如母天,每击数,点击排行 实时在线数 222 关于hive建表基本描述正确的是? C 单选题 不可再修改表名 可再增加新列 创建外部表需要制定external 关键字 不可再修改列名 223 Fusioninsight HD 系统中Hive 支持的存储格式包括? D 单选题 Textfile Sequencefile RCFILE Hfile 224 在Flink 的运行流程中,负责申请资源的角色是? B 单选题 Resourcemanager Jobmanager Client Taskmanager 225 在Fuisoninsight HD 中,创建Loader 作业的进行数据转换的正确步骤是? A 单选题 输入设置,转换,输出抽取,转换,输出 抽取、转换、输出 加载,转换,输出 加载,转换,抽取 226 Flume 用于收集数据,其传输的数据基本单位是? C 单选题 Split Block Event Packet 227 Fusionninsiget HD 系统中, Flume 数据流在节点内不需要经过哪个组件? C 单选题 Source Sink Topic channel 228 传统数据处理的数据单位? D 单选题 TB EB PB GB 229 哪个命令是删除文件的? C 单选题 dfs -clear dfs -ls dfs -rm dfs -del 230 hadoop 平台中,要查看 Yarn 服务中ー个application 的信息,通常需要使用什么命令? D 单选题 container jar application-attempt Application 231 Hbase 元数据Meta Region/路面信息保存在哪里? B 单选题 Zookeeper Meta 表 Haster Root 表 232 关于hive与传统据仓库的对比,以下描述错误的是? D 单选题 "数据存储独位于数据存储之外,从而解耦合元数据和数据,灵活性高,而传统数据,灵活性低" "Hive 基于HDFS 存储,理论上存储量可无限扩展,而传统数据仓库存储量会有上限" "由于hive 的数据存储在HDFS 中,所以可以保证数据的高容错,高可靠" "由于Hive 基于大数据平台,所以查询效率比传统数据仓库快" 233 YARN的基于标准调度,是对下列选项中的哪个进行标签化? C 单选题 Appmaster Resourcemanager Nodemanager Container 234 对于Hive 中关于普通表和外部表描述不正确的是? C 单选题 默认创建普通表 删除外部表时,只除外部表数据而不删除元数据 "外部实质是将已存在于 HDFS 上的文件路径跟表关联起来" 删除普通表时,元数据和数据同时被删除 235 在Fusioninsight 产品中,关于创建Kafka 的Topic,以下哪些描述是正确的? C 单选题 在创建Kafka 的Topic 时,必须设置Partition 个数 "在创建Kafka 的topic 时,必须设置Partition 副本个数" 设置多副本可以增强Kafka 服务的容灾能力 以上全都正确 236 下列选项中,关于Zookeeper 可靠性含义说法正确的是? D 单选题 可靠性通过主备部署模式实现 可靠性是指更新更新只能成功或失败没有中间状态 "可靠性是指无论哪个server,对外展示的均是同一个视图" "可靠性是指一个消息被一个Server 它将被所有的Server 接受" 237 YARN 中默认的资源调度器是? B 单选题 FIFO 调度器 容量调度器 Fair 调度器 以上全不是 238 部署Fusioninsight HD 时,同一集群内的Flume Server 节点建议至少部署几个? D 单选题 1 3 4 2 239 Fusioninsight HD 系统中,下面哪个方法不能查看到Loader 作业执行的结果( ) C 单选题 通过Loader UI 界面查看 通过YARN 任务管理 通过Nodemanager 查看 通过Manager 的警 240 关于kafka 逍息消费者Consumer读取消息的描述,错误的有? D 单选题 Consumer 使用Offset 来记录读取的位置 "图片中的蓝色框为Kafka 的一个Topic,即可以理解为一个队列,每个格子代表一条消" 生产者产生的消息逐条放到Topic 的末尾 消费者从右至左顺序读取消息 241 Fusioninsight HD 中Hbase 默认使用什么组件作为其底层文件存储系统? C 单选题 File Kafka HDFS Memory 242 "在很多小文件场景下, Spark 会起很多Task,当SQL 逻辑中存在Shuffle 操作时,会大大增加hash 分桶数,严重影响性能。 Fusioninsight中,针对小文件的场景通常采用()算子,来对Table 中的小文件生成的partition 进行合并,减少partition 数,从而避免在shuffle 的时候,生成过多的hash 分桶,提升性能?" D 单选题 groupby coalease connect join 243 查看kafka某Topic的partition详细信息时,使用如下那个命令? D 单选题 bin/kakfa-topics sh --create bin/kakfa-topics sh --delete bin/kakfa-topics. sh--list bin/kakfa-topics sh --describe 244 以下关于Zookeeper 关键特性中的原子说法正确的是? B 单选题 "客户端发送的更新会按照他们被发送的顺序进行应用" 更新只能全部完成或失败,不会部分完成 一条消息被一个server 接收,将被所有server 接收 集群中无论哪台服务器,对外示均是同 245 下列论据中, 能够支撑“大数据无所不能”的观点的是( ) 。 D 单选题 互联网金融打破了传统的观念和行为 大数据存在泡沫 大数据具有非常高的成本 个人隐私泄露与信息安全担忧 246 以下哪一项不属手创建Loader作业时必选项? A 单选题 优先级 名称 连接 类型 247 为了保证流应用的快照存储的可靠性,快照主要存储在( )? C 单选题 本地文件系统中 Jobmanager 的内存中 HDFS 中 可靠性高的单机数据库中 248 "如果需要由数据生产者决定数据发送给目标Bolt 的某一个确定的 Task,应选择以下哪种消息发布策略( )?" C 单选题 局部字段分组 广播分组 直接分组 全局分组 249 Flink 中的()接口用于流数据处理,()接口用于批处理? C 单选题 Databatch API, Datastream API Stream API, Batch API Datastream API, Dataset API Batch API, Stream API 250 以下关于Zookeeper 的Leader 节点在收到数据变更请求后的读写流程说法正确的是? D 单选题 仅写入内存 同时写入磁盘和内存 先写入内存再写入磁盘 先写磁盘再写内存 251 数据仓库的最终目的是() 。 A 单选题 收集业务需求 开发数据仓库的应用分析 建立数据仓库逻辑模型 为用户和业务部门提供决策支持 252 关于Kafka 磁盘容量不足的告警,对于可能的原因以下分析不正确的是? C 单选题 业务规划不合理,导致数据分配不均,使部分磁盘达到使用率上限 数据保存时间配置过长,数据累计达到磁盘使用率上限 Broker 节点故障导致 "用于存储Kafka 数据的磁盘配置(如磁盘数目,磁盘大小等),无法满足当前业务数据流量,导致磁盘使用率达到上限" 253 "Fusioninsight HD 中Loader 从SFTP 服务器导入文件时,不需要做编码转换和数据转换且速度最快的文件类型是以下哪项?" B 单选题 graph-file binary-file text-file sequence-file 254 下面关于Zookeeper 特性的描述错误的是? B 单选题 消息更新只能成功或者失败,没有中间状态 Zookeeper 节点数必须为奇数个 "一条消息要被超过半数的Server 接收,它将可以成功写入磁盘" "客户端所发送的更新会按照它们被发送的顺序进行应用" 255 Hbase 中数据存储的文件格式是什么? C 单选题 Hlog Textfile HFIle sequencerlle 256 Hbase 中的Region 是由哪个服务进程来管理的? A 单选题 Hregionserver Zookeeper Master Datanode 257 Kafka 集群在运行期间,直接依赖于下面那些组件? C 单选题 Hbase Spark Zookeeper HDFS 258 "Hive 是基于Hadoop 的数据仓库软件,可以査询和管理 PB 级别的分布式数据。以下关于hive 特性的描述不正确的是?" D 单选题 灵活方便的ETL 易用易编程 可直接访可HDFS 文件以及Hbase 仅支持mapreducet 计算引擎 259 Spark 是用以下那种编程语言实现的? D 单选题 C C++ java Scala 260 YARN 中设置队列 Queue 的最大使用资源里,需要配置哪个参数? D 单选题 yarn.scheduler.capacity.root.QueueA.user-limit- factor "yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent" yarn.scheduler.capacity.root.QueueA.state "yarn.scheduler.capacity.root.QueueA.maxirnum-capacity" 261 Hadoop 系统中关于客户端向 HDFS 文件系统上传文件说法正确的是? B 单选题 "客户端的文件数据经过 NameNode 传递给DataNode" 客户端将文件分为多个 Bock,根据 DataNode 的地址信息,按顺序写入每一个DataNode 中 "客户端根据 DataNode 的地址信息,按顺序将整个文件写入每一个 DataNode中,然后由 DataNode将文件划分为多个 Block" 客户端只上传数据到一个 DataNode,然后由 Namenode 负责 Bock 复制 262 Hadoop 的 HBase 不适合哪些数据类型的应用场景? A 单选题 大文件应用场景 海量数据应用场景 高吞吐率应用场景 半结构化数据应用场景 263 Hadoop 中 MapReduce 组件擅长处理哪种场景的计算任务? B 单选题 迭代计算 离线计算 实时交互计算 流式计算 264 以下哪类数据不属于半结构化数据? C 单选题 HTML XML 二维表 JSON 265 "釆用 Flume 传输数据过程中,为了防止因 Flume 进程重启而丢失数据,推荐使用以下哪种channel 类型?" B 单选题 Memory Channels File Channel JDBC Channel HDFS Channel 266 "HBase 中如果发生一个 Region 的 Split,将一个 HFile 文件真正分开到两个Region 的过程发生在以下什么阶段?" C 单选题 Split 过程中 Flush 过程中 Compaction 过程中 HFile 分开过程中 267 Hadoop 平台中 HBase 的 Region 是由哪个服务进程来管理? C 单选题 HMaster DataNode Region Server Zookeeper 268 Spark 组件中哪个选项不属于 transformation 操作? D 单选题 Join distinct reduceByKey reduce 269 关于 Hive 与 Hadoop 其他组件的关系,以下描述错误的是? D 单选题 Hive 最终将数据存储在 HDFs 中 Hive SQL 其本质是执行 MapReduce 任务 Hive 是 Hadoop 平台的数据仓库工具 hive 对 HBase 有强依赖 270 关于 Kafka 磁盘容量不足的告警,对于可能的原因以下分析不正确的是? D 单选题 "用于存储 Kafka 数据的磁盘配置(如磁盘数目、磁盘大小等),无法满足当前业务数据流里,导致磁盘使用率达到上限" 数据保存时间配置过长,数据累积达到磁盘使用率上限 业务规划不合理,导致数据分配不均,使部分盘达到使用率上限 Broker 节点故障导致 271 HBase 的物理存储单元是什么? B 单选题 Region ColumnFamily Column ROW 272 Hadoop 中哪个模块负责 HDFS 的数据存储? B 单选题 NameNode DataNode zookeeper JobTraoker 273 Hadoop 平台中启用 YARN 组件的日志聚集功能,需要配置哪个参数? D 单选题 yarn.nodemanager.local-dirs yarn.nodemanager.log-dirs yarn.acl.enable yarn.log-aggregation-enable 274 加载数据到 Hive 表,哪种方式不正确? C 单选题 直接将本地路径的文件 load 到 Hive 表中 将 HDFS 上的文件 load 到 Hive 表中 "Hive 支持 Insert into 单条记录的方法,所以可以直接在命令行插入单条记录" 将其他表的结果集 insert into 到 Hive 表 275 hadoop 系统中 YARN 资源的抽象是用什么表示? C 单选题 内存 CPU Container 磁盘空间 276 Kafka 集群中, Kafka 服务端部署的角色是? D 单选题 Producer Consumer ZooKeeper Broker 277 Flink 是流计算处理和批处理平台,()是数据批处理和流处理的核心引擎 D 单选题 Runtime DataStream DataSet FlinkCore 278 下面哪个程序负责 HDFS 数据存储。 C 单选题 NameNode Jobtracker Datanode secondaryNameNode 279 HDFS 中的 block 默认保存几个备份。 A 单选题 3 份 2 份 1 份 不确定 280 下面哪个进程负责 MapReduce 任务调度。 B 单选题 NameNode Jobtracker TaskTracker secondaryNameNode 281 HBase是分布式列式存储系统,记录按什么集中存放。 A 单选题 列族 列 行 不确定 282 HBase的Region组成中,必须要有以下哪一项。 B 单选题 StoreFile MemStore HFile MetaStore 283 设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。 A 单选题 分桶 分区 索引 分表 284 "HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?" D 单选题 一个map读取64MB,另外一个map读取11MB 128MB 64MB 75MB 285 "HDFS有一个LZO(with index)文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为?" A 单选题 一个map读取64MB,另外一个map读取11MB 64MB 75MB 128MB 286 如果想要修改集群的备份数量,可以修改下面哪个配置文件? C 单选题 mapred-site.xml core-site.xml hdfs-site.xml hadoop-env.sh 287 Hadoop-2.x集群中的HDFS的默认的副本块的个数是? A 单选题 3 2 1 4 288 以下哪个不是HDFS的守护进程 C 单选题 SecondaryNameNode NameNode MrappMaster/YarnChild DataNode 289 大数据至少为以下哪种存储量级? B 单选题 EB PB TB ZB 290 关于HDFS集群中的DataNode的描述不正确的是? A 单选题 一个DataNode上存储的所有数据块可以有相同的 存储客户端上传的数据的数据块 DataNode之间可以互相通信 "响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑" 291 MapReduce的Shuffle过程以下中哪个操作是最后做的? B 单选题 排序 合并 分区 溢写 292 下列关于HDFS的描述正确的是? A 单选题 NameNode磁盘元数据不保存Block的位置信息 DataNode通过长连接与NameNode保持通信 HDFS集群支持数据的随机读写 "如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作" 293 一个gzip文件大小75MB,客户端设置Block大小为64MB,请问其占用几个Block? B 单选题 3 2 4 1 294 如果对HBase表的添加数据记录,可以使用()命令进行操作。 C 单选题 create get put scan 295 如果需要对HBase表中的数据进行列表查看,可以使用()命令进行操作。 B 单选题 count scan put get 296 以下更新HBase表中数据的语法,输写正确的是()。 D 单选题 update user. xiaoming’ set info.age=1 "update ‘users’,’xiaoming’,’info.age’,’29’" put ‘users’,’xiaoming’,’info.age’ put ‘users’,’xiaoming’,’info.age’,’29’ 297 在HBase Shell操作中,请选择以下哪个命令用于删除整行操作()。 C 单选题 delete from ‘users’.’xiaoming’ delete table from ‘xiaoming’ deleteall ‘users’,’xiaoming’ deleteall ‘xiaoming’ 298 在HBase Shell操作中,可以使用下面哪个命令对数据表进行行数统计()。 C 单选题 select count(0) from ‘users’ sum ‘users’ count ‘users’ truncate ‘users’ 299 使用JAVA API进行HBase操作,以下命令输写正确的是()。 B 单选题 HBaseTestCase.get(tablename); HBaseTestCase.get(tablename,’row1’); "HBaseTestCase.delete(tablename,’row1’,’row2’);" "HBaseTestCase.scan(tablename,’row1’,’row2’);" 300 使用JAVA API进行HBase整表扫描操作,以下命令输写正确的是()。 A 单选题 table.getScanner(scan); table.scan(table); table.get(table).scan(); table.Scanner(get); 301 使用JAVA API进行HBase表数据添加操作,以下命令输写正确的是()。 C 单选题 HTable.add (new Put(Bytes.toBytes(row)); "HTable.insert(newPut(Bytes.toBytes(row));" HTable.put(new Put(Bytes.toBytes(row)); HTable.update(new Put(Bytes.toBytes(row)); 302 HBase来源于哪篇博文? C 单选题 The Google File System MapReduce BigTable Chubby 303 HBase依靠()存储底层数据 A 单选题 HDFS Hadoop Memory MapReduce 304 HBase依赖()提供消息通信机制 A 单选题 Zookeeper Chubby RPC Socket 305 HBase依赖()提供强大的计算能力 D 单选题 Zookeeper Chubby RPC MapReduce 306 下面与Zookeeper类似的框架是? D 单选题 Protobuf Java Kafka Chubby 307 下面与HDFS类似的框架是? C 单选题 NTFS FAT32 GFS EXT3 308 LSM含义是? A 单选题 日志结构合并树 二叉树 平衡二叉树 长平衡二叉树 309 LSM更能保证哪种操作的性能? B 单选题 读 写 随机读 合并 310 LSM的读操作和写操作是独立的? A 单选题 是。 否。 LSM并不区分读和写 LSM中读写是同一种操作 311 LSM结构的数据首先存储在()。 B 单选题 硬盘上 内存中 磁盘阵列中 闪存中 312 HFile数据格式中的Data字段用于()。 A 单选题 存储实际的KeyValue数据 存储数据的起点 指定字段的长度 存储数据块的起点 313 HFile数据格式中的MetaIndex字段用于()。 D 单选题 Meta块的长度 Meta块的结束点 Meta块数据内容 Meta块的起始点 314 HFile数据格式中的Magic字段用于()。 A 单选题 存储随机数,防止数据损坏 存储数据的起点 存储数据块的起点 指定字段的长度 315 HFile数据格式中的KeyValue数据格式中Value部分是()。 C 单选题 拥有复杂结构的字符串 字符串 二进制数据 压缩数据 316 HBase中的批量加载底层使用()实现。 A 单选题 MapReduce Hive Coprocessor Bloom Filter 317 一群人中,吃东北大米的占60%,吃原阳大米的占45%,两种均吃的占30% D 单选题 0.82 0.85 0.8 0.75 318 以下选项中, 不属于信息时代的定律的是( ) A 单选题 吉尔德定律 摩尔定律 麦特卡尔夫定律 达律多定律 319 HBase分布式模式最好需要()个节点? C 单选题 1 2 3 最少 320 解压.tar.gz结尾的HBase压缩包使用的Linux命令是? A 单选题 tar -zxvf tar -zx tar -s tar -nf 321 下列不可作为 java 语言标识符的是 D 单选题 a1 double hello BigMeaninglessName 328 以下哪个关键字可以用来为对象加互斥锁? D 单选题 transient static serialize synchronized 329 "在 Java中,一个类可同时定义许多同名的方法, 这些方法的形式参数个数、 类型或顺序各不相同,传回的值也可以不相同。这种面向对象程序的特性称为" C 单选题 隐藏 覆盖 重载 Java 不支持此特性 330 Java application 中的主类需包含 main 方法, main 方法的返回类型是什么? D 单选题 int float double void 331 下列哪些语句关于 Java内存回收的说明是正确的 ? B 单选题 程序员必须创建一个线程来释放内存 内存回收程序负责释放无用内存 内存回收程序允许程序员直接释放内存 内存回收程序可以在指定的时间释放内存对象 332 若需要定义一个类域或类方法,应使用哪种修饰符? C 单选题 static package private public 333 下面哪个函数是 public void aMethod(){...} 的重载函数? D 单选题 void aMethod( ){...} public int aMethod(){...} public void aMethod ( ){...} public int aMethod ( int m){...} 334 Java 的字符类型采用的是 Unicode 编码方案,每个 Unicode 码占用()个比特位。 C 单选题 8 16 32 64 335 以下关于继承的叙述正确的是() A 单选题 在Java中类只允许单一继承 在Java中一个类只能实现一个接口 "在Java中一个类不能同时继承一个类和实现一个接口" 在Java中接口只允许单一继承 336 下列关于 Java语言的特点,描述错误的是() C 单选题 Java是跨平台的编程语言 Java支持分布式计算 Java是面向过程的编程语言 Java支持多线程 337 下述概念中不属于面向对象方法的是()。 D 单选题 对象、消息 继承、多态 类、封装 过程调用 338 结构化程序设计所规定的三种基本控制结构是 () C 单选题 输入、处理、输出 树形、网形、环形 顺序、选择、循环 主程序、子程序、函数 339 下列关于构造方法的叙述中,错误的是() C 单选题 Java语言规定构造方法名与类名必须相同 "Java语言规定构造方法没有返回值,但不用 void声明" Java语言规定构造方法不可以重载 Java语言规定构造方法只能通过 new 自动调用 340 下列哪个类的声明是正确的?( ) D 单选题 abstract final class HI{} abstract private move(){} protected private number; public abstract class Car{} 341 关于被私有访问控制符 private 修饰的成员变量,以下说法正确的是() C 单选题 "可以被三种类所引用:该类自身、与它在同一个包中的其他类、在其他包中的该类的子类" "可以被两种类访问和引用:该类本身、该类的所有子类" 只能被该类自身所访问和修改 只能被同一个包中的类访问 342 下列关于 for 循环和 while 循环的说法中哪个是正确的?( ) B 单选题 while 循环能实现的操作, for 循环也都能实现 "while 循环判断条件一般是程序结果, for 循环判断条件一般是非程序结果" 两种循环任何时候都可替换 两种循环结构中都必须有循环体,循环体不能为空 343 下列哪一个关键字用于实现接口来定义类? B 单选题 extends implements abstract interface 344 下面哪一个操作符的优先级最高? D 单选题 && || ! ( ) 345 编译 Java程序的命令是: B 单选题 appletviewer javac java javadoc 346 编译 Java 源程序文件将产生相应的字节码文件,这些字节码文件的扩展名为 B 单选题 byte class html exe 347 执行语句 int i = 1, j = ++i; 后 i 与 j 的值分别为 D 单选题 1 与 1 2 与 1 1 与 2 2 与 2 348 main 方法是 Java应用程序执行的入口点,关于 main 方法的方法头以下哪项是合法的? B 单选题 public static void main() public static void main( String[] args ) public static int main(String [] arg public void main (String arg[] ) 349 下列哪个选项不是 Java语言的特点? D 单选题 面向对象 高安全性 平台无关 面向过程 350 下列哪个是合法的 Java标识符? B 单选题 Tree&Glasses FirstJavaApplet theLastOne 273.5 351 下面哪一个循环会导致死循环? C 单选题 for (int k = 0; k < 0; k++) for (int k = 10; k > 0; k--) for (int k = 0; k < 10; k--) for (int k = 0; k > 0; k++) 352 在 Java中用什么关键字修饰的方法可以直接通过类名来调用? A 单选题 static final private void 353 若在某一个类定义中定义有如下的方法: abstract void performDial( );该方法属于 C 单选题 接口方法 最终方法 抽象方法 空方法 354 如果希望某个变量只可以被类本身访问和调用, 则应该使用下列哪一种访问控制修饰符 A 单选题 private protected private protected public 355 在 Java中, "456"属于()类的对象。 B 单选题 int String Integer Stri 356 NumberSystem.out.println("5" + 2); 的输出结果应该是()。 A 单选题 52 7 2 5 357 "为 AB 类的一个无形式参数无返回值的方法 method 书写方法头,使得使用类名 AB作为前缀就可以调用它,该方法头的形式为 ()。" A 单选题 static void method( ) public void method( ) final void method( ) abstract void method( ) 358 下面声明数组的写法错误()。 D 单选题 int a[ ]; int[ ] a; int[3][ ] a; int[ ][3] a; 359 "设 x 为 float 型变量, y 为 double 型变量, a 为 int 型变量, b 为 long 型变量, c 为char 型变量,则表达式 x+ya/x+b/y+c 的值为 ()类型。" C 单选题 int long double char 360 欲构造 ArrayList 类的一个实例,此类继承了 List 接口,下列哪个方法是正确的?() B 单选题 ArrayList myList=new Object (); List myList=new ArrayList(); ArrayList myList=new List(); List myList=new List(); 361 Java编程所必须的默认引用包为 () B 单选题 java.sys包 java.lang 包 java.util 包 以上都不是 362 下面语句在编译时不会出现警告或错误的是 () C 单选题 float f=3.14; char c= ” c”; Boolean b=null; int i=10.0; 363 "声明成员变量时 ,如果不使用任何访问控制符 (public, protected, private) ,则以下哪种类型的类不能对该成员进行直接访问 ()" D 单选题 同一类 同一包中的子类 同一包中的非子类 不同包中的子类 364 下列哪种异常是检查型异常,需要在编写程序时声明 () C 单选题 NullPointerException ClassCastException FileNotFoundException IndexOutOfBoundsException 365 下面哪个流类属于面向字符的输入流 () D 单选题 BufferedWriter FileInputStream ObjectInputStream InputStreamReader 366 下面哪一行代码正确的声明了一个类方法 (静态方法 )? D 单选题 public int method(int i) protected method(int i) public static method(String s) protected static void method(Integer i) 367 下面这些类型的应用,那个不使用 Java语言来编写? A 单选题 JavaScript Applet Servlet Java Swing 368 使用 SQLAlchemy 完成指定规则过滤记录的方法是 A 单选题 filter() group() limit() order_by() 369 使用 SQLAlchemy 定义关系时,使用的代码是 C 单选题 relationship() app.relationship() db.relationship() flask.relationship() 370 获取请求当前 URL 使用的方法,可以使用 request 中的 D 单选题 get post methods method 371 WTForms 中表示多行文本字段的是 B 单选题 StringField TextAreaField TextField SelectField 372 WTForms 中用来验证数据是否有效使用的是 A 单选题 DataRequired() Required() InputRequired() Optional() 373 在 Flask 框架中,自定义错误页面使用的装饰器是 C 单选题 error() handler() errorhandler() page() 374 在 Jinjia2 模板引擎中创建 block 后要使用( )表示结束。 A 单选题 {% endblock %} {% end %} {{ endblock }} {{ end }} 375 在使用 SQLAlchemy 模型从数据库中查询数据时,可以使用模型提供的( )属性调用各种过滤方法和查询方法。 A 单选题 query order filter select 376 在 Flask 框架中,找不到与路由匹配的视图函数会返回( )错误。 B 单选题 500 404 302 200 377 在 Flask 框架中设置路由的请求方法,可以使用参数( )。 D 单选题 request requests method methods 378 在 ORM 模型中,数据表的字段由( )类实例表示。 C 单选题 db column db.Column property 379 使用 ORM 模型插入数据时,需要将实例化对象添加到用户会话,使用的代码是( )。 B 单选题 db.add() db.session.add() db.session() add.session() 380 在命令行终端中,运行 Flask 项目使用的命令是( )。 A 单选题 flask run flask flask app app run 381 在进行模板渲染时,需要从 flask 中导入( ) D 单选题 flask templates url_for render_templates 382 在使用 Flask-WTF 自定义表单类时,自定义的类需要继承自( )。 A 单选题 FlaskForm FlaskForms FlaskWTF Forms 383 在进行模板渲染时,需要从 flask 中导入( )。 D 单选题 flask templates url_for render_templates 384 在使用 Flask-WTF 自定义表单类时,自定义的类需要继承自( )。 A 单选题 FlaskForm FlaskForms FlaskWTF Forms 385 在 Jinjia2 模板引擎中实现模板的继承,使用的关键词是 ( )。 B 单选题 extend extends from import 386 在使用 Flask-WTF 自定义表单类时,对字段添加验证函数,使用的参数是( )。 A 单选题 validators submit validator_on_submit validator 387 在测试 Flask 项目时,使用( )模块可以根据需求产生不同类型和数量的虚拟数据。 B 单选题 demo faker test faker_data 388 在数据库模型中,可以指定条件对记录进行排序,使用的方法是( )。 A 单选题 order_by filter order group() 389 为 Flask 创建自定义命令,通过创建一个函数,为该函数添加 ( )装饰器。 B 单选题 @app.route() @app.cli.command() @app.cli() @app.command() 390 在MapReduce中,( )组件是用户不指定也不会有默认的。 A 单选题 Combiner OutputFormat Partitioner InputFormat 391 在Mapper类中,共有4个函数:setup()、map()、( )、run()。 B 单选题 Reducer() cleanup() Split() local() 392 以下对于zookeeper中的角色描述错误的是( ) C 单选题 Leader:负责进行投票的发起和决议。 Follower:接受客户请求并向客户端返回结果 Observer:接收客户端请求,参加投票 Client:请求发起方 393 以下选项中主节点和从节点配置的端口都是( )。 A 单选题 9000 1000 7000 8000 394 下面说法错误的是( )。 B 单选题 Hadoop集群采用的是Master/Slave工作模式 "DataNode上保存着的是元数据,真正的数据是存放在NameNode上的" "HDFS采用了 种对文件切割后分别存放的存储方式。" HDFS是为高数据吞吐量应用优化的。 395 不属于HDFS优势是( )。 A 单选题 时间快 超大文件 大量小文件 商用硬件 396 以下命令组成错误的是( )。 D 单选题 vim /etc/profile source /etc/profile hadoop namenode -format bin/hadoop fs -cat/hadoopdata/y/txt 397 下面不是Zookeeper特点的是( )。 C 单选题 简单 富有表现力 支持索引 是一个资源库 398 下哪种不是Hive支持的数据类型( )。 D 单选题 Struct Int Map Long 399 按粒度大小的顺序,Hive数据被组成数据库、表、( )和桶。 A 单选题 按分区 元数据 行 块 400 下面关于MapReduce的描述中正确的是( )。 D 单选题 MapReduce程序 必须包含Mapper和Reduce。 MapReduce程序的MapTask可以任意指定。 MapReduce程序的ReduceTask可以任意指定 MapReduce程序的ReduceTask可以任意指定 401 下面对Streaming的特性说法正确的是( )? A 单选题 "如果并不要求每个消息必须被处理(允许在处理过程中丢失一些信息),那么可以关闭消息的可靠处理机制,从而可以获取较好的性能。" 关闭消息的可靠处理机制意味着系统中的消息数不会减少。 将参数Config.TOPOLOGY_ACKERS设置为1可以关闭消息的可靠性处理机制。 Spout发送一个消息时,使用指定消息messageID的接口进行发送可以关闭消息的可靠性处理机制。 402 以下哪个不是DataStream的组成部件( )? C 单选题 Data source Transformations Channel Data sink 403 以下哪个channel类型的数据不会持久化( )? B 单选题 File Channel Memory Channel JDBC Channel HDFS Channel 404 从数据表中查找记录用以下哪一项( ) C 单选题 UPDATE FIND SELECT CREATE
==============多选题=================== 序号 题干 答案 题型 选项A 选项B 选项C 选项D 405 以下叙述正确的有( )。 AB 多选题 两变量独立,两者的皮尔森相关系数必然等于 0 两变量皮尔森相关系数不等于 0,两者必然不独立 "皮尔森相关系数是否等于零,不能指明两变量是否独立" 两变量不独立,两者的皮尔森相关系数必然不等于 0 406 层次聚类的聚类方式有( )。 AB 多选题 凝聚方式聚类 分解方式聚类 Q 型聚类 R 型聚类 407 以下哪些算法可以做数值的预测 (Prediction)?( ) BD 多选题 Apriori Decision Tree Naive Bayes Linear Regression 408 下列说法中不正确的是( )。 ACD 多选题 任何两个变量都具有相关关系 人的知识与其年龄具有相关关系 散点图中的各点是分散的没有规律 根据散点图求得的回归直线方程都是有意义的 409 相关分析可以做到( )。 ABCD 多选题 判定现象之间有无关系 判定现象之间关系的方向 判定相关关系的紧密程度 说明现象之间联系的具体形式 410 SQL 中的HAVING用法,正确的有( )。 ACD 多选题 "HAVING 子句必须与 GROUP BY子句同时使用,不能单独使用" 使用 HAVING 子句的同时不能使用 WHERE 子句 使用 HAVING 子句的同时可以使用 WHERE 子句 使用 HAVING 子句的作用是限定分组的条件 411 箱线图包含的五个统计量是( )。 ACD 多选题 中位数 众数 四分位数 最值 412 张亮持有 A 、 B 、 C 、 D 、 E 五只股票,请问以下不属于时间序列问题的有( )。 BC 多选题 "透过 A 只股票过去一年来的股价走势,预测明天 A 只股票的开盘价格" 将A、B、C、D、E五只股票区分为赚钱与赔钱两个类别 将A、B、C、D、E五只股票区分为甲、乙、丙三个群体 "透过 A, C, D 三只股票过去一年来的走势,预测明天A 只股票的开盘价格" 413 以下选项中可以用于预测 Y 为分类变量的方法有( )。 CD 多选题 伽玛回归 泊松回归 Logistic 回归 Probit 回归 414 关联规则的条件是满足( )。 AB 多选题 最小支持度(MinimumSupport) 最小信赖度(MinimumConfidence) 最大规则数(MaximumRule Number) 以上皆非 415 以下选项中属于聚类算法的是( )。 AB 多选题 K-Means DBSCAN Apriori KNN 416 以下选项数据web内容挖掘实现技术的有( )。 ABCD 多选题 文本总结 文本分类 文本聚类 关联规则 417 关于极差说法错误的是( )。 ABCD 多选题 一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布和中间变量值的离散情况 418 大数据的三个阵营包括( )。 ABD 多选题 数据拥有者 数据应用者、服务者 数据挖掘者 技术拥有者 419 大数据的精髓是( )。 ABC 多选题 不是随机样本而是全部数据 不是精确性而是混杂性 不是因果关系而是相关关系 不是实时变化而是全量变化 420 大数据有( )特点。 ABCD 多选题 数据量大 速度快、时效高 类型多 价值密度低、含量大 421 大数据在经济治理方面的作用有( )。 ABCD 多选题 推导宏观趋势 降低银行坏账率 打击假冒伪劣 提高生产效率 422 常见的数据污染有( )。 ABC 多选题 数据不完整 噪声数据 数据不一致 数据冗余 423 常用的识别异常数据的方法有( )。 AB 多选题 物理判别法 统计判别法 经验法 检验法 424 数据预处理的常见方法有( )。 ABCD 多选题 数据清理 数据集成 数据变换 数据规约 425 以下哪些属于传统可视化方法。( ) ABC 多选题 直方图 折线图 饼图 文字云 426 Excel是Microsoft Office的组件之一,可以实现( )。 ABCD 多选题 数据处理 统计分析 数据可视化显示 辅助决策 427 以下哪些是制作折线图时的常见失误。( ) ABCD 多选题 "刻度间隔太大,使得整条折线太过水平,容易掩盖事实" 刻度间隔太小,使得折线太过陡峭,会夸大趋势 "将虚线和各种图形标记一起用上,这样会分散读者的注意力" 所有的折线用相近的颜色表示使得重点不够突出 428 统计分析方法的局限是( )。 ABC 多选题 不全面不深刻 统计决断的结论并非绝对正确 运用情况复杂,对方法要求高 不能反映总体数量特征 429 以下哪些是集中趋势分析的指标。( ) ABCD 多选题 均值 中位数 众数 四分位数 430 关于众数说法正确的是( )。 ABCD 多选题 不受分布数列的极大或极小值的影响 "若将无众数的分布数列重新分组或各组频数依序合并,又会使分配数列再现出明显的集中趋势" "如果与众数组相比邻的上下两组的次数相等,则众数组的组中值就是众数值,以此类推" 缺乏敏感性 431 四分位数的特征值是( )。 ABCD 多选题 最大值 最小值 中位数 四分位数 432 数据产生可以分为哪几个阶段。( ) ABC 多选题 运营式系统阶段 用户原创内容阶段 感知式系统阶段 级数增长阶段 433 问题结构是由( )构成的。 ABD 多选题 现状 直接原因 间接原因 最终原因 434 收集整理信息时的行业环境有( )。 ABCD 多选题 行业规模及发展速度 行业竞争状况 行业挑战及机遇 行业发展趋势及方向 435 收集整理信息时的竞争分析包含哪些内容。( ) AB 多选题 确定行业中的主要竞争者 收集竞争对手的相关信息 收集行业关键技术信息 搜集产业链上下游主要环节 436 收集信息主要包含哪些内容( )。 ABCD 多选题 宏观环境 行业环境 竞争环境 技术环境 437 统计方法的特性是( )。 ABC 多选题 实用性 丰富性 公平性 准确性 438 描述数据集中趋势的常见指标是( )。 ABC 多选题 均值 中位数 众数 四分位数 439 数据分析结果呈现需要做哪些准备工作。( ) ABC 多选题 确定表达的主题 确定对比关系 选择图形 讲解与说明 440 PEST分析法是指( )。 ABCD 多选题 政治环境 经济环境 社会环境 技术环境 441 测试集选取的方法一般包括( )。 ABCD 多选题 保持法 随机二次抽样 交叉验证 自助法 442 决策树算法的特点是( )。 ABC 多选题 模型直观清晰,分类规则易于解释 解决了连续数据值的学习问题 提供了将学习结果决策树到等价规则集的转换功能 不能用于数值计算 443 以下哪些是回归算法的前提。( ) ABCD 多选题 正态性假设 零均值性假设 等方差性假设 独立性假设 444 时间序列建模是一种应用很广的统计建模方法,可用在以下哪几种情况。( ) ABCD 多选题 系统描述 系统分析 预测未来 决策和控制 445 数据分析报告一般分为哪些层次。( ) ABCD 多选题 需求层 数据层 分析层 输出层 446 描述统计包括哪些部分。( ) ABC 多选题 集中趋势分析 离散趋势分析 相关分析 D推断统计 447 以下指标中,反应离散趋势的有( )。 ACD 多选题 方差 四分位数 变异系数 D极差 448 以下统计指标,不受极值影响的是( )。 BD 多选题 平均数 四分位差 极差 D众数 449 大数据产生的经历了哪些阶段。( ) BCD 多选题 数据积累阶段 运营式系统阶段 用户原创内容阶段 感知式系统阶段 450 统计局进行CPI统计中的价格采集,采用的三定原则是( )。 ACD 多选题 定时 定量 定点 定人 451 调研分析可以采用以下哪种思路。( ) BC 多选题 相关分析法 总分总 归因分析法 抽样法 452 分析宏观环境从以下哪些方面来收集信息。( ) ABCD 多选题 政策法律环境 经济环境 社会文化环境 技术环境 453 可以用于表示某公司一年中每个月销量变化的数据图形类型是( )。 BC 多选题 矩形竖图 柱状图 堆积面积图 雷达图 454 可以用于企业竞争环境和行业分析的方法有( )。 BCD 多选题 4P理论 PEST分析法 SWOT分析法 波特五力竞争分析 455 分析报告的模式包括以下哪些。( ) ABCD 多选题 专题式 综合式 工作汇报式 金字塔式 456 分类测试集的选取方法可以有以下哪些。( ) BCD 多选题 均分法 保持法 随机二次抽样法 交叉验证 457 一个理想的决策树需要满足的条件是( )。 AB 多选题 叶子结点数最少 叶子结点深度最小 叶子结点数最多 叶子结点深度最大 458 以下属于回归算法的前提假设的是( )。 ABCD 多选题 正态性假设 零均值性假设 等方差性假设 独立性假设 459 下列模型中,可用于平稳时间序列的拟合的是( )。 ABC 多选题 线性随机模型 ARMA模型 混合自回归模型 趋势模型 460 下面属于遗传算法的特点有( )。 ABC 多选题 求得全局最优解 算法并行化 自适应和自学习性 对未来的预测 461 大数据加电子商务的应用方向有( )。 ABCD 多选题 用户画像 精准营销 个性化推荐 动态定价 462 分析消费者购买行为模型的特征变量有( )。 ABCD 多选题 自然社会因素 文化因素 产品因素 个人因素 463 数据分析报告的金字塔原理所遵循的原则是( )。 ABD 多选题 归类分组 逻辑递进 以下统上 结论先行 464 大数据4V特征包括( )。 ABCD 多选题 数据规模大,数据量巨大(Volume) "数据种类繁多,包括半结构化数据和非结构化数据(Variety)" 价值密度低,如同沙里淘金(Value) 数据处理速度快,能实时获取信息(Velocity) 465 Hadoop HDFS自身的局限性包括( )。 ABC 多选题 不适合做低延迟、细粒度访问 无法高效存储大量的小文件 不支持多文件的写入及任意修改文件 无法实现数据的冗余备份存储 466 关于Hadoop HDFS名称节点中的元数据信息,下面说法正确的是( )。 ABCD 多选题 "文件是什么:包括目录自身的属性信息,例如文件名,目录名,修改信息等" 文件被分成了多少块 每个块和文件之间的映射信息 每个文件具体被存储到哪个服务器上 467 关于Hadoop HDFS1.0的局限性包括( )。 ABCD 多选题 "命名空间的限制,名称节点是保存在内存中的,因此,名称节点能够容" "性能的瓶颈,整个分布式文件系统的吞吐量,受限于单个名称节点的吞" "隔离问题,由于集群中只有一个名称节点,只有一个命名空间,因此," "集群的可用性,一旦这个唯一的名称节点发生故障,会导致整个集群变" 468 以下哪几种数据结构被AutoreleasePoolPage使用() CD 多选题 数组 字典 链表 栈 469 下面属于Hadoop生态圈组件的是( )。 ABC 多选题 MapReduce Hive HBase Java 470 Hadoop的核心组件包括( )。 AB 多选题 MapReduce HDFS Hive Pig 471 关于Hadoop HDFS块的概念,下面说法正确的是( )。 ABD 多选题 "块是HDFS的核心概念,HDFS为了分摊磁盘读写的开销,也就是在大量数" "Hadoop1.x中,默认为64MB,可以调大,但不是越大越好,块的大小设" "Hadoop1.x中,默认为128MB,可以调大,越大越好,块的大小设定不受" HDFS的一个块通常要比普通文件大的多 472 关于Hadoop HDFS名称节点中的FsImage中,主要信息包括( )。 ABCD 多选题 文件的复制等级 文件的修改访问时间 文件的访问权限 组成文件的块 473 关于Hadoop HDFS的冗余数据存储设计的优点,下面说话正确的是( )。 ABC 多选题 "加快数据的传输速度,冗余备份可以并行访问数据,加快了操作访问效" "容易的检查数据错误,冗余备份机制可以用来互相参照,容易检查数据" "容易保持数据的一致性,冗余备份机制使得即使有一个副本坏掉了,只" "提升磁盘空间的利用率,冗余备份机制使得磁盘空间有效利用" 474 Hadoop HDFS的设计目标包括( )。 ABCD 多选题 兼容廉价的硬件设备 支持大数据集 支持简单的文件模型 跨平台性 475 关于Hadoop HDFS块的设计的优点,下面说法正确的是( )。 ABC 多选题 支持大规模的文件的存储 简化系统设计 适合数据备份 能够实现冗余备份机制 476 关于Hadoop HDFS的文件操作,正确的是( )。 ABC 多选题 HDFS可以创建文件并写入数据 HDFS可以查看文件内容 HDFS可以更改文件名 HDFS可以更改文件内容 477 逻辑回归是数据挖掘算法中常用的模型算法,以下关于逻辑回归的说法正确的是( )。 CD 多选题 异常值不会对模型造成很大的干扰。 "逻辑回归的自变量必须是分类变量,因此要对连续型变量进行离散化处理。" 逻辑回归属于分类算法。 逻辑回归对模型中自变量的多重共线性较为敏感。 478 数据离散化的方法有哪些( )。 BD 多选题 随机取值 等距离散法 数值规约 等频离散法 479 以下有关误差的说法中,正确的是( )。 ABCD 多选题 "相对误差反映实际观测值与预测值之间差异的相对程度" 平均误差反映实际观测值与预测值之间的平均差异 评价预测精度是通过测量与分析预测误差进行的 绝对误差是实际观测值与预测值的离差 480 以下算法中对缺失值不敏感的是( )。 BD 多选题 Logistic 回归 CART 决策树 SVM 算法 朴素贝叶斯 481 方差分析的基本假设前提是( )。 ABC 多选题 各处理条件下的样本均来自正态总体 各处理条件下的样本相互独立 各处理条件下样本的方差都相等 各处理条件下样本均值相等,方差可以不等 482 若检验统计量 F近似等于 1 则表示( )。 AD 多选题 组间方差中不包含系统因素的影响 组内方差中不包含系统因素的影响 组间方差中包含系统因素的影响 方差分析中不应拒绝原假设 483 决策树法分析问题的主要步骤为( )。 ABCD 多选题 结构化问题 设计可能结果发生的概率 设计结果的得益 分析问题 484 下列哪些分类预测方法可适用有连续型变量的自变量?( ) ABC 多选题 逻辑回归 神经网络 SVM 算法 C4.5算法 485 以下有关直线回归方程的说法正确的是( )。 ABCD 多选题 "建立前提条件是现象之间具有较密切的线性相关关系" 关键在于确定方程中的参数 a 和 b 表明两个相关变量间的数量变动关系 "可用来根据自变量值推算因变量值,并可进行回归预测" 486 聚类模型构建时,通常采用的相似性统计量计算方法为( )。 ABE 多选题 绝对距离 欧式距离 夹角余弦 相关系数 487 Apriori 算法的计算复杂度受哪些因素影响?( ) ABCD 多选题 支持度阀值 项数(维度) 事务数 事务平均宽度 488 主成分分析中确定主成份个数是关键步骤,其大致原则包括( )。 AC 多选题 特征根值大于 1 特征根值大于 0.8 累积特征根值加总占总特征根值的 80%以上 累积特征根值加总占总特征根值的 90%以上 489 下列哪个场景可以使用决策树构建模型?( ) ABD 多选题 预测申办信用卡的新客户是否将来会变成卡奴 保险公司针对特定族群做人寿保险的推销 找出购物篮里商品购买间的关联 根据生活作息推断该病人得癌症的机率 490 以下选项哪些对聚类分析影响很大?( ) ABCD 多选题 聚类分析 回归分析 神经网络 决策树算法 491 下列( )可以作为集群的管理工具。 ABCD 多选题 Puppet Rsync + ssh + scp Pdsh Cloudera Manager 492 "给你几万条用户数据,每条用户数据的电话号码是其唯一的关键字段,请选择合适的数据结构,将这些用户数据加载到内存中管理起来。这个数据结构支持基于电话号码的快速查询,同时又支持新数据的快速插入(有新的用户不断注册进来):()" ABC 多选题 链表 Hash表 B+Tree 队列 493 对于Hadoop中client上传文件的描述正确的是( )。 BD 多选题 数据经过NameNode传递给DataNode "Client端将文件以Block为单位,管道方式依次传到DataNode" "Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作" "当某个DataNode失败,客户端会继续传给其它DataNode" 494 Cloudera提供哪几种安装CDH的方法?( ) ABCD 多选题 Cloudera manager Tar ball Yum Rpm 495 MapReduce与HBase的关系,哪些描述是正确的( )。 BC 多选题 "两者不可或缺,MapReduce是HBase可以正常运行的保证" "两者不是强关联关系,没有MapReduce,HBase可以正常运行" MapReduce可以直接访问HBase 它们之间没有任何关系 496 下面关于Hbase的特性描述正确的是( )。 ABCD 多选题 高可靠性 高性能 面向列 可伸缩 497 下列哪些选项是安装HBase前所必须安装的?( ) AB 多选题 操作系统 JDK Shell Script Java Code 498 HBase官方版本可以安装在( )操作系统上。 ABC 多选题 CentOS Ubuntu RedHat Windows 499 以下关于DBSCAN算法说法正确的是( )。 ABC 多选题 可以对任意形状的稠密数据集进行聚类 样本集的密度不均匀时,聚类质量较好 "可以在聚类的同时发现异常点,对数据集中的异常点不敏感" 聚类结果没有偏倚 500 AGNES算法可分为( )。 ACD 多选题 单链算法 多链算法 全链算法 均链算法 501 以下哪些是典型的关联规则应用场景。( ) ABCD 多选题 穿衣搭配推荐 依据用户轨迹的商户精准营销 实时新闻推荐 金融客户交叉销售 502 以下哪些是MatLab软件的特点。( ) ABCD 多选题 高效的数值计算及符号计算功能,能使用户从繁杂的数学运算分析中解脱出来 具有完备的图形处理功能,实现计算结果和编程的可视化 友好的用户界面及接近数学表达式的自然化语言,使学者易于学习和掌握 功能丰富的应用工具箱(如信号处理工具箱、通信工具箱等),为用户提供了大量方便实用的处理工具 503 常用的数据挖掘编程工具有( )。 ABCD 多选题 SAS Stata MatLaB R 504 审核回收的调研数据需要做以下哪些数据清洗。( ) ABCD 多选题 补充缺失值 剔除异常值 剔除数据重复 调整不一致的数据 505 可以用于分类指标呈现的方式有以下哪些。( ) ABD 多选题 混淆矩阵 ROC曲线 气泡图 增益图 506 回归模型的检验需要经过以下哪些方面。( ) ABD 多选题 样本容量 模型显著性 无偏估计 拟合优度 507 用户对HBase Region服务的读写过程,下面说法正确的是( )。 ABC 多选题 "用户写入数据时,被分配到相应Region服务器去执行" 用户数据首先被写入到MemStore和Hlog中 "只有当操作写入Hlog之后,commit()调用才会将其返回给客户端" "当用户读取数据时,Region服务器会直接去磁盘上面的StoreFile中寻找" 508 Hadoop集群中关于机架配置的描述正确的是( )。 ABD 多选题 如果一个机架出问题,不会影响数据读写 写入数据的时候会写到不同机架的DataNode中 写入数据的时候会写到随机机架的DataNode中 "MapReduce会根据机架获取离自己比较近的网络数据" 509 以下属于分类器模型评价指标的有( )。 ABD 多选题 预测准确度 recall 模型描述的简洁度 F1-Score 510 "随机森林指的是利用多棵树对样本进行训练并预测的一种分类器,以下针对随机森林算法的表述,错误的是( )。" AC 多选题 "随机森林算法的分类精度会随着决策树数量的增加而提高。" 随机森林算法对异常值和缺失值不敏感。 随机森林算法不需要考虑过拟合问题。 "决策树之间相关系数越低、每棵决策树分类精度越高的随机森林模型的分类效果越好。" 511 回归平方和(ESS)是指( )。 BCD 多选题 被解释变量的实际值与平均值的离差平方和 被解释变量的回归值与平均值的离差平方和 被解释变量的总变差与剩余变差之差 解释变量变动所引起的被解释变量的变差 512 Logistic建模时,如果变量Area=C时,Y取值均为 1,无法确定是否出现的是哪个问题( )。 ABD 多选题 共线性 异常值 拟完全分离(Quasi-complete separation) 缺失值 513 消除时间序列中的不规则变动和季节变动的方法是( )。 AD 多选题 移动平均法 指数平滑法 时间序列乘法模型 季节指数 514 C4.5算法是由Ross Quinlan开发的用于产生决策树的算法,以下描述正确的有( )。 BCD 多选题 每个节点的分支度只能为 2 使用 gain ratio 作为节点分割的依据 可以处理数值型态的字段 可以处理空值的字段 515 维归约即摒弃掉不重要的特征,用少数的关键特征来描述数据。常用的维归约处理方法有( )。 AC 多选题 主成分分析 特征提取 奇异值分解 特征加权 516 时间序列预测方法分为( )。 AB 多选题 平滑法预测 ARIMA模型预测 Winter法 不能确定 517 MapReduce与HBase的关系,哪些描述是正确的。( ) BC 多选题 "两者不可或缺,MapReduce是HBase可以正常运行的保证" "两者不是强关联关系,没有MapReduce,HBase可以正常运行" MapReduce可以连接HBase 它们之间没有任何关系 518 ResoureManager主要作用是什么( )? AC 多选题 调度器 应用程序管理器 节点资源管理 节点资源管理 519 以下对SPARK的描述,正确的是( )? ABD 多选题 高性能内存迭代计算框架 内存计算一站式解决方案 性能差 支持多语言快速开发应用 520 以下哪些是Spark的常驻进程( )? AD 多选题 JobHistory SparkResource NodeManager JDBCServer 521 关于HBase的特性,哪些是正确的( )? ABCD 多选题 高可靠性 高性能 面向列 可伸缩 522 HBase读数据时需要读取哪几部分数据( )? AC 多选题 HFile Hlog MemStore HDFS 523 Loader作业的配置包括以下哪些步骤( )? ABCD 多选题 基本信息 输入配置 转换 输出配置 524 目前FusionInsight有哪些子产品( ) ABCD 多选题 FusionInsight HD FusionInsight Farmer FusionInsight Miner FusionInsight MPPDB 525 FusioninsightManager的主要功能有以下哪些?( ) BCD 多选题 数据集成 系统管理 安全管理 服务治理 526 关于Spark SQL&Hive 区别与联系,下列说法正确的是?( ) ABCD 多选题 Spark SQL 依赖HiVe 的元数据 "Spark SQL 的执行引擎为Spark core.,Hive 默认执行引擎为Mapreduce" Spark SQL 不可以使用Hive 的自定义函数 Spark SQL 兼容绝大部分Hive 的语法和函数 527 在Fusioninsight 集群中, Spark 主要与以下哪些组件进行交互?( ) ABD 多选题 ABD YARN Hive Zookeeper 528 以下关于Hbase 中HMaster 的功能描述哪些是正确的?( ) ABCD 多选题 "Region 负载均衡, Region 分裂以及分裂后的Region 分配" 负责建表/修改表/删除表 负责Region Server 的负载均衡 Regionserver 失效后的Region 迁移 529 Nimbus 在Streaming 架构中的功能包括?( ) ABD 多选题 监控任务执行状态 任务调度 启动/关闭工作进程 资源分配 530 下面关于flink 窗口的描述错误的是( ) AC 多选题 滚动窗口在时间上是重叠的 滚动窗口在时间上是不重叠的 滑动窗口在时间上是不重叠的 滑动窗口之间时间点存在重叠 531 以下哪些数据源可以通过Loader 实现与FusionInght HD 的数据交换?( ) ABCD 多选题 NoSQL FTP Server SFTP Server MySQL 532 ZKFC 进程部署在hdfs 中的以下那个节点上?( ) AB 多选题 active namenode standby namenode datanode 以上全部不对 533 Zookeeper 中的数据节点znode 分为哪几种类型?( ) BD 多选题 semi-persistent ephemeral temporary persistent 534 下面选项中,哪些不是mysql数据库的引擎 BD 多选题 Innodb OLTP Memory OLAP 535 Flume 适用于以下哪些场景的数据收集?( ) ABC 多选题 Thrift,Avro, Syslog, Kafka 等数据源上收集数据 本地文件数据采集 应用系统产生的日志采集 大量数据的实时数据采集 536 Mapreduce 过程中,以下属于Shuffle 机制的是?( ) ABCD 多选题 Copy Partition combine Sort/Merge 537 Fusioninsight Manager 可以对哪些项目进行健康检查?( ) ABCD 多选题 角色 主机 服务 实例 538 Fusioninsight Manager 与外部管理平台对接时,支持哪些接口?() BCD 多选题 VPN Syslog FIP SNMP 539 以下关于FusionInsight 中carborData 说法正确的有?( ) ABCD 多选题 使用Carbon 的目的是对大数据即席查询提供超快速响应。 "Carbon 使用轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少 60%-80%数据存储空间,大大节省硬件存储成本。" "Cabonr 是一种新型Apache Hadoop 本地文件格式,使用先进的列式存储,索引,压缩和编码技术,以提高计算效率,有助于加速超过PB 数量级的数据查询,可用于更换的交互查询。" Carbon 也是一种将数据源与Spark 集成的高性能分析引擎 540 以下选项中,属于HDFS 架构关键特性的是?( ) ABCD 多选题 HA 高可靠性 健壮机制 元数据持久化机制 多方式访问机制 541 Streaming 的处理节点Bolt 中,可以完成以下哪些操作?( ) ABCD 多选题 连接运算 过滤( Filter) 连接数据库 业务处理 542 Fusioninsight HD 集群中包含了多种服务,每种服务又由若干角色组成,下面哪些是服务的角色?( ) BC 多选题 HDFS Namenod Datanode Hbase 543 "Fusioninsight HD 系统中使用Streaming 客户端Shell 命令提交了拓扑之后,使用StormUI 查看发现该拓长时间没有处理数据,可能原因有?( )" AB 多选题 查看客户端异常堆栈,判断是否客户端使用问题 "查看主Nimbus 的运行日志,判断是否Nimbus 服务端异常" "查看Supervisor 运行日志,判断是否Supervisor 异常" 查看Worker 运行日志 544 Hbase中包含的一些典型的Filter 有哪些?( ) ABCD 多选题 SingleColumValueFilter FilterList RowFilter KeyOnlyFilter 545 Flink 流式处理的数据源类型包括?( ) ABCD 多选题 Collections JDBC Socket streams Files 546 Hbase集群定时执行Compaction 的目的是什么? ABCD 多选题 "减少同一个Region 同个Columnfamily 下的文件数目" 减少同一个Region 的文件数目 提升数据读取牲能 提升数据写入能力 547 Flume进程级联时,以下哪些Sink 类型用于接收上一跳Flume 发送过来的数据? BD 多选题 Null Sink thrift sink Hive sink avro sink 548 Flink可以基于以下哪些窗口进行统计? ABCD 多选题 时间窗口 滑动窗口 会话窗口 countWindow 549 关于Flume,下列说法错误的是? CD 多选题 Flume 级联节点之间的数据传输支持加密 F1ume 支持多级联和多路复用 "Source 到Channel 到Sink 等进程内部有加密的必要" Flume 级联节点之间的数据传输不支持压缩 550 以下关于Kafka logs 中segment file 的说法正确的是? ABD 多选题 通过索引信息可以快速定位message "稀疏存储,即将原来的完整数据,只间隔的选择多条进行存储" "是index 元数据全部映射到memory,可以避免segment file 的index 数据I0 磁盘操作" "索引文件稀疏存储,可以大幅度降低index 文件元数据占用空间大小" 551 Hadoop 集群规模很大时,数据的分布情况会非常关键,用户需要根据数据分布情况,决定集群是扩容,数据是否需要做负载均衡等, fusioninsight 资源分布监控说法正确( ) ABCD 多选题 用户快速聚焦在最关键的资源消耗上 通过每个服务主业的资源分布查看界面,看到关键的资源分布情况 "通过dashboard 界面,可以查看到主机资源分不清哪个矿,例如内存占用率在 50-75%的主机列表,并提供链接跳转" 帮助用户迅速找到资源消耗最高的点,采取适当的措施 552 以下关于华为大数据解决方案说法正确的是( ) ABCD 多选题 GAUSSDB 是一款开源数据库产品 Farmer 是数据服务框架 "Fusion Insight Manager 是一个分布式系统管理框架,管理员可以通过多接入点操控分布式集群" "Fusioninsight HD 是基于开源大数据软件Hadoop的增强版本" 553 Fusioninsight HD 数据高可靠性体现在以下哪些方面? ABCD 多选题 硬盘热插拔 关键数据掉电保护 跨数据中心容灾 第三方备份系统集成 554 Kafka 消息传输保障通常有以下哪几种( )? ABD 多选题 仅有一次( Exactly Once) 最少一次( At Least Once) 最多三次( At Most Three Times) 最多一次( At Most Once) 555 Hbase的特点有哪些?( ) ABCD 多选题 面向列 高性能 可伸缩 高可靠性 556 Yarn 中,“从”节点负责以下哪些工作? BC 多选题 集群中所有资源的统一管理和分配 监督container 的生命周期管理 "监控每个Container 的资源使用(内存、CPU 等)情况" 管理日志和不同应用程序用到的附属服务 557 Spark 有哪些特点? ABCD 多选题 快 灵 轻 巧 558 与开源sqoop 相比, loader 具有哪些増强特性?( ) ABCD 多选题 高可靠性 高性能 安全性 图形化 559 Fusioninsight HD loader 可以将 HDFS 数据导出到以下哪些目标端? ABCD 多选题 oracle 数据库 SFTP 服务器 BD2 数据库 FTP 服务器 560 Fusioninsight HD 在创建作业时,连接器有以下哪些作业? ABCD 多选题 配置作业与内部数源连 配置作业与源连接 确定有转换 提供优化参数导出性能 561 Fusioninsight 家族包含下列哪些子产品? ABC 多选题 Fusioninsight Farmer Fusioninsight Miner Fusioninsight HD GAUSSDB 200 562 数据流如何Transformation 之间传输数据,数据流可以分为那些类型? AC 多选题 一对一流 distributing 流 一对多流 redistributing 流 563 Flink 的兼容性体现在以下哪些方面? ABCD 多选题 YARN 能够作为F1ink 集群的资源调度管理器 "能够与Hadoop 原有的Mappers 和Reducers 混合使用" 能够使用Hadoop 的格式化输入和输出口 能够从本地获取数据 564 以下关于Hbase 的文件存储模块( Hbase Filestream,简称HFS)描述正确的有? ABCD 多选题 应用在Fusioninsight H 的上层应用 HFS 封装了HBase 与HDFS 的接口 为上层应用提供文件的存储,读取,除等功能 HFS 是Hbase 的独立模块 565 若在消息处理过程中允并部分信息丢失,关闭消息可靠性处理机制的方式有以下哪些? ACD 多选题 将参数Config. Topology_ ACKKRS 设置为 0 将参数Config. Topology_ ACKKRS 设置为False "Spout 发送消息时,使用不指定消息messageid 的接口进行发送" Bolt 发送消息时使用Unanchor 方式发送 566 "采用Flume 传输数据过程中,为了防止因F1me 进程重启而丢失数据,可以使用以下哪种Channel 类型?" BC 多选题 Memory Channel JDBC Channel File Channel HDFS Channel 567 关于Hbase 存储型的描述正确的是? ABCD 多选题 "即使是key 值相同, qualifier 也相同的多个keyvalue.也可能有多个,此时使用时间戳" 同一个key 值可以关联多个value keyvalue 期有时间戳,类型等关键信息 每一个keyvalue 都有一个qualifier 标识 568 fusioninstght hd 集群包含多种服务,每种服务又有若干个角色组成,下面那些是角色? AC 多选题 namenode hbase datanode 以上全都正确 569 fusininsight HD 平台中,那些组件支持对列表加密? CD 多选题 HDFS Flink hbase hive 570 YARN 容量调度器的主要特点有哪些? ABCD 多选题 容量保证 动态更新配置文件 灵活性 多重租赁 571 以下哪些选项属于fusioninsight 数据安全性? BC 多选题 操作系统安全加固 组件数据加密 数据完整性校验 用户权限认证管理 572 nodemanager 的内存和CPU 的数量,是通过下列哪些选项进行配置? BCD 多选题 "Yarn sceduler.capacity.root.Queuea maximum-capacity" Yarn nodemanager. resource cpu-vcore Yarn nodemanager. vmem-pmom-ratio Yarn. modemanager. resource. memory-mb 573 下列选项中,哪些是Mapreduce 一定会有的过程? BCD 多选题 Combine Map Reduce Partition 574 下列选项中,哪些是Spark 的重要角色( ) ABD 多选题 Nodemanager Resourcemanager Datanode Driver 575 以下属于Hive SQL 中DDL(数据定义语言)的是? ABD 多选题 修改表 删除表 数据导入 建表 576 Structured/ Streaming 在Output 阶段可以定义不同的数据写入方式,包括以下哪些方式? BCD 多选题 General Mode Append Mode Complete Mode Update Mode 577 hbase中以下哪利场景会出发Fllush 操作? ABCD 多选题 Hbase 定时刷新Memstore,默认周期为 1 小时 当WALs 文件数量达到阈值时 "Resion 中Memstore 的总大小,达到了预设的 F1ush Size 國值" "Memstore 占用内存的总量和Regionserver 总内存比值超出了预设的阈值大小" 578 以下关于Flink 与其它组件交互说法正确的是? ABCD 多选题 Flink 任务的运行依赖Yarn 来进行资源调度管理 F1ink 的checkpoint 的实现依赖于zookeeper Flink 可以将接收的组件发送给 Kafka Flink 在HDFS 文件系统中读写数据 579 执行Hbase 取数据业务,需要读取哪几部分数据? BD 多选题 HMaster Hfile Hlog Memstore 580 Spark 适用于以下哪些场景? ABCD 多选题 交互式查询 实时流处理 批处理 图计算 581 执行Hbase 读数据业务,需要读取哪几部分数据? CD 多选题 HLog HMaster Hfile Memstore 582 以下哪些是Kafka 实际的应用场景? ABC 多选题 网站活性跟踪 日志收集 聚合统计系统运营数据(监控数据) 资源管理 583 在大数据时代,企业所面临的挑战有以下哪些? ABD 多选题 "企业各部门间数据分散,相同数据在各内部存储格式不一致" 数据结构多样化 竞争对手的技术进步 "数据存在噪音、缺失、存储类型不规范等问题,需要进行大量的数据预处理工作" 584 下列关于Worker(工作进程exector(线程)、Task(任务)说法正确的是? ABD 多选题 每个Executor(线程可以运行多个 task 任务 每个Worket 运行多个exector(线程) 每个Workst 只能为个拓扑运行Executor(线程) "每个Executor 运行不同组件( Spout 或Bolt)的Task(任务)" 585 Fusioninsight HD 系统使用Streaming 客户端Shell 命令查看拓扑或者提交拓扑失败,以下哪些定位手段是正确的( )? CD 多选题 查看Supervisor 运行日志,判断是否Superisor 异常 查看Worker 运行日志 "查看主Nimbus 的运行日志,判断是否Nimbus 服务端异常" 看客户端异常堆栈,判断是否客户端使用问题 586 flink支持的时间操作类型包括以下哪些选项? BD 多选题 结束时间 处理时间 采集时间 事件时间 587 下列属于Flume 数据监控的指标是? ACD 多选题 Sink 写入数据量 Datanode 数量 Channel 缓存数据量 Source 接受数据量 588 调用Zookeepe客户端命令中包含哪些信息? ABCD 多选题 Ip 地址 端口号 服务器名称 用户名 589 以下关于Zookeeper 的Leader 选举说法正确的是? AB 多选题 "当实例n 为奇数时,假定n=2x+1,则成为leader 节点需要x+1 票" Zookeeper 选举 1 eader 时,需要半数以上票数 当实例数为 8 时,则成为leader 容灾能力为 4 "当实例数n 为奇数时,假定n=2x+1,则成为leader 节点需要x 票" 590 hdfs不适用哪些场景? BD 多选题 流式数据访问 大量小文件存储 大文件存储与访问 随机写入 591 在Loader 历史作业记录中,可以查看以不哪些内容? ABCD 多选题 作业状态 脏数据链接 错误行/文件数量 作业开始/运行时间 592 Zookeeper可以为Fusion Insight 哪些提供分布式管理支持? ACD 多选题 Hive loader hbase Spark 593 以下关于Kafka Partition 说法正确的有? ABCD 多选题 引入Partition 机制,保证了Kafka 的高吞吐能力 每个Partition 都是有序且不可变的消息队列 "Partition 数量决定了每个consumer group 中并发消费者的最大数量" 每个Partition 在存储层面对应一个 1og 文件 594 hive在load 是不检索数据是否符合schema 的,hive 遵循的是schema on read(读时模式)只有在读时模式的时候才检查 hive 的数据字段,shena.下关于Flink 中transformation 的说法正确的是? ABD 多选题 可以通过window 设定时间窗口 filter 操件是对每个元素执行boolean 函数 flatmap 是对文本进行切分 keyby 是将源头数据按照key 进行分组,以保证同一个key 的元数据分到同样的组中 595 Loader 可以实现以下哪些转换规则? ABCD 多选题 长整型时间转换 拼接转换 增量转换 空值转换 596 下面哪些场景不是Flink 组件擅长的? BD 多选题 批处理 迭代计算 流处理 数据存储 597 "Hive 中的这条命令"""" SELECT a. salary,b. address FROM employee a JOIN( SELECT addressFROI employee info where province=zhe jiang) b ON a name-b.name:""""是个什么类型的操作?" BD 多选题 导入数据 join 查询 创建表 子查询 598 下列关于worker(エ作进程)、executor(线程)、Task(任务)说法正确的是? ABC 多选题 每个Execute(线程)可以运行多个task(任务) 每个worker 可以运行多个Executor(线程) "每个Executor(线程)可以运行不同组件( Spout 或Bolt)的rask(任务)" 每个worker 只能为一个拓扑运行executor(线程) 599 HBase 的数据文件 HFile 中一个 Keyvalue 格式包含哪些信息? ABCD 多选题 Key value TimeStamp Key type 600 HBase 集群定时执行Compaction 的目的是什么? AB 多选题 "减少同一个 Regin 同个 ColumnFamily 下的文件数目" 提升数据读取性能 减少同一个 ColumnFamily 的文件数据 减少同一个 Region 的文件数目 601 以下哪些是 Spark 服务的常驻进程? AB 多选题 JobHistory JDBCServer SparkResource NodeManaaer 602 Hadoop 的 HDFS 是一种分布式文件系统,适合以下哪种场景的数据存储和管理? BD 多选题 大量小文件存储 高容错高吐量 低延迟读取 流式数据访问 603 "基于 Hadoop 开源大数据平台主要提供了针对数据分布式计算和存储能力,如下属于分布式存储组件的有?" CD 多选题 MR Spark HDFS HBase 604 关于大数据的主要特征理解和描述正确的有? ABCD 多选题 来源多,格式多 增长速度快处理速度快 存储量大,计算量大 数据的价值密度较低 605 Hadoop 通过 ResourceManager 对集群资源进行管理,它的主要功能有? ABC 多选题 集群资源调度 应用程序管理 集群资源管理 日志管理 606 以下关于 Hadoop 的 HDFS 描述正确的有? ACD 多选题 HDFS 由 NameNode, DataNode,client 组成 "HDFS 备 NameNode 上的元数据是主NameNode 同步过去的" "HDFS 采用就近的机架节点进行数据的第一副本存储" HDFS 适适合写一次,多次读取的读写 607 Hadoop 系统中 YARN 支持哪些资源类型的管理? AB 多选题 内存 CPU 网络 磁盘空间 608 以下哪些是 Spark 可以提供的功能? AD 多选题 分布式内存计算引擎 分布式文件系统 集群资源的统一调度 流处理功能 609 从生命周期维度看,数据主要经历那几个阶段? ABCD 多选题 数据采集 数据存储 数据管理 数据分析 610 YARN 客里调度器的主要特点有哪些? ABCD 多选题 容量保证 灵活比 多重租赁 动态更新配置文件 611 执行 HBase 读数据业务,需要读取哪几部分数据? AC 多选题 HFile HLog Mem Store HDFS 612 大数据分析相关技术主要特征包括? ABC 多选题 机器学习,全量特征 数据背后事件关联性分析 基于海量数据为基础 基于精确样本为基础 613 Hadoop 的 HBase 主要特点有哪些? ABCD 多选题 高可靠性 高性能 面向列 可伸缩 614 Spark 可以接收哪些来源的数据? BCD 多选题 YARN HDFS HIVE HBase 615 关于SecondaryNameNode 哪项是正确的? AC 多选题 它是 NameNode 的热备 它对内存没有要求 "它的目的是帮助 NameNode 合并编辑日志,减少NameNode 启动时间" "SecondaryNameNode 应与 NameNode 部署到一个节点" 616 下面哪个组件可以在Hadoop集群中代替MR做一些计算? AC 多选题 Spark Sqoop Hive Avro 617 Hadoop MapReduce对外提供了5个可编程组件,以下哪对中的方法或任务不全在这5个编程组件中。 AB 多选题 Partitioner和Combiner Split和Sort InputFormat和OutputFormat Mapper和Reducer 618 YARN主要包含的模块有以下哪些? ABC 多选题 ApplicationMaster ResourceManager NodeManager QuorumJournalManager 619 下面哪些是Hadoop 2.x的组件? ABC 多选题 Spark Hive HBase GFS 620 Hadoop的三种安装模式包括以下哪种? BCD 多选题 两分布式模式 完全分布式模式 伪分布模式 单机模式 621 Hadoop集群具有以下哪个优点? ACD 多选题 高容错性 高成本性 高可靠性 高扩展性 622 关于数据副本的存放策略正确的有些? ABCD 多选题 第三个副本:与第一个副本相同机架的其他节点上; 更多副本:随机节点。 第一个副本,放置在上传文件的数据节点; "第二个副本,放置在与第一个副本不同的机架的节点上;" 623 大数据采集中面临的主要问题有以下哪些? ABCD 多选题 如何避免重复数据 数据源多种多样,数据量大、变化快 如何保证数据的质量 如何保证数据采集的可靠性 624 对于HBase系统的使用场景,以下说法正确的是()。 ABD 多选题 需对数据进行随机读操作或者随机写操作 大数据量并发操作 需要进行多表联合查询 读写访问均是非常简单的操作 625 HBase系统用于记录Region相关信息的表,具体的表包含()。 AC 多选题 -ROOT- -ADMIN- …META. …SYSTEM. 626 对于HBase分布式存储系统,下面说法正确的是( ) ABCD 多选题 高可靠性 高性能 面向列 可伸缩 627 下面哪些属于数据库事务的ACID特性 BCD 多选题 唯一性 一致性 隔离性 持久性 628 Hbase的数据文件HFile中一个Keyvalue格式包括哪些信息? BC 多选题 key value Timestamp Key Type 629 可向顶点着色器(Vertex Shader)传递数据的方式? ABCD 多选题 uniform 变量 attribute变量 varying 变量 vertex 变量 630 下列数据结构不具有记忆功能的是? AC 多选题 队列 循环队列 栈 顺序表 631 以下数据结构属于线性数据结构的是? AC 多选题 队列 线性表 二叉树 栈 632 下列哪些方法可以用来对高维数据进行降维( ) AD 多选题 LASSO 主成分分析法 聚类分析 小波分析法 633 在数据库系统中,产生不一致的根本原因是:() ABC 多选题 数据存储量太大 并发控制不当 未对数据进行完整性控制 数据冗余 634 光缆是数据传输中最有效的一种传输介质,它有() AB 多选题 频带较宽 电磁绝缘性能好 衰减较小 无中继段长 635 在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是() AB 多选题 "将负样本重复10次,生成10w样本量,打乱顺序参与分类" 直接进行分类,可以最大限度利用数据 从10w正样本中随机抽取1w参与分类 "将负样本每个权重设置为10,正样本权重为1,参与训练过程" 636 下列关于Bloom Filter的描述正确的是? AC 多选题 是一个很长的二进制向量和一系列随机映射函数 没有误算率 有一定的误算率 可以在Bloom Filter中删除元素 637 数据清理中,处理缺失值的方法是? ABC 多选题 估算 整例删除 变量删除 成对删除 638 下列哪些选项是安装HBase前所必须安装的? AB 多选题 操作系统 JDK Shell Script Java Code 639 对于HDFS的组成描述正确的是( )。 ABCD 多选题 HDFS的文件系统主分为管理节点和工作节点。 NameNode管理元数据信息 DataNode保存真正的数据。 DataNode保存真正的数据。 选项重复 640 ZooKeeper特点包括( )。 ABCD 多选题 最终一致性 可靠性 实时性 实时性 选项重复 641 Hadoop生态系统包括( ) ABCD 多选题 非关系型数据库Hbase 机器学习框架Mahout 数据仓库Hive 日志收集工具Flume 642 以下对于zookeeper描述正确的是( ) ABCD 多选题 Zookeeper的核心是原子广播 Zookeeper包含一个简单的原语集 "Zookeeper是个开放源码的分布式应用程序协调服务" Zookeeper是Hadoop的一个子项目 643 以下是Spark中executor的作用是( ) ABC 多选题 保存计算的RDD分区数据 向Driver反向注册 "接受Driver端发送来的任务Task,作用在RDD上进行执行" 做资源调度任务 644 Stage 的 Task 的数量不是由什么决定( ) BCD 多选题 Partition Job Stage TaskScheduler 645 spark的特点包括() ABD 多选题 快速 通用 可延伸 兼容性 646 Task 运行不在以下选项中 Executor 上的工作单元() ABD 多选题 Driver program spark master worker node Cluster manager 647 关于spark容错说法错误的有() AD 多选题 "在容错机制中,如果一个节点死机了,而且运算窄依赖,则只要把丢失的父RDD分区重算即可,依赖于其他节点" 宽依赖开销更大 Checkpoint可以节约大量的系统资源 RDD的容错机制是基于Spark Streaming的容错机制 648 SparkRdd 转换算子有() ABC 多选题 map filter mapPartitions collect 649 下面哪些端口是 spark 自带服务的端口 () ABD 多选题 8080 4040 8090 18080 650 关于spark中数据倾斜引发原因正确的选项有() ABCD 多选题 key本身分布不均衡 计算方式有误 过多的数据在一个task里面 shuffle并行度不够 651 Spark driver的功能是什么() ABD 多选题 是作业的主进程 负责了作业的调度 负责向HDFS申请资源 负责作业的解析 652 Master 的 selectedLeader 事件后不做哪些操作() ABC 多选题 通知 driver 通知 worker 注册 application 直接 ALIVE 653 SparkContext可以从哪些位置读取数据 ACD 多选题 本地磁盘 web hdfs 内存 654 scala语言中一个函数可以定义在 ABCD 多选题 构造函数里 class内 object内 main函数内 655 MLlib包括 ABCD 多选题 分类模型 聚类模型 特征抽取 统计模型 656 在网络爬虫的爬行策略中, 应用最为基础的是( ) 。 AB 多选题 深度优先遍历策略 广度优先遍历策略 高度优先遍历策略 反向链接策略 657 当前, 大数据产业发展的特点是( ) 。 ACE 多选题 规模较大 规模较小 增速很快 增速缓慢 658 下列关于数据生命周期管理的核心认识中, 正确的是() ABC 多选题 "数据从产生到被删除销毁的过程中, 具有多个不同的数据存在阶段" 在不同的数据存在阶段, 数据的价值是不同的 "根据数据价值的不同应该对数据采取不同的管理策略" "数据生命周期管理旨在产生效益的同时, 降低生产成本" 659 下列关于基于大数据的营销模式和传统营销模式的说法中, 错误的是( )。 AB 多选题 传统营销模式比基于大数据的营销模式投入更小 传统营销模式比基于大数据的营销模式针对性更强 传统营销模式比基于大数据的营销模式转化率低 基于大数据的营销模式比传统营销模式实时性更强 660 下列关于脏数据的说法中, 正确的是( ) ABCD 多选题 格式不规范 编码不统一 意义不明确 与实际业务关系不大 661 数据再利用的意义在于( ) 。 ABC 多选题 挖掘数据的潜在价值 实现数据重组的创新价值 利用数据可扩展性拓宽业务领域 优化存储设备, 降低设备成本 662 按照涉及自变量的多少, 可以将回归分析分为() 。 CD 多选题 线性回归分析 非线性回归分析 一元回归分析 多元回归分析 663 传统数据密集型行业积极探索和布局大数据应用的表现是( ) 。 BC 多选题 投资入股互联网电商行业 打通多源跨域数据 提高分析挖掘能力 自行开发数据产品 664 大数据人才整体上需要具备() 等核心知识。 AB 多选题 数学与统计知识 计算机相关知识 马克思主义哲学知识 市场运营管理知识 665 下列关于大数 据的说法中, 错误的是() 。 AD 多选题 大数据具有体量大、 结构单一、 时效性强的特征 "处理大数据需采用新型计算架构和智能算法等新技术" 大数据的应用注重相关分析而不是因果分析 大数据的应用注重因果分析而不是相关分析 666 大数据作为一种数据集合, 它的含义包括( ) 。 ACD 多选题 数据很大 很有价值 构成复杂 变化很快 667 大数据处理流程可以概括为以下哪几步? ABCD 多选题 挖掘 采集 统计和分析 导入和预处理 668 宁家骏委员指出, () 主导了 21 世纪。 ACD 多选题 云计算 移动支付 大数据 物联网 669 大数据的主要特征表现为() 。 ABCD 多选题 数据容量大 商业价值高 处理速度快 数据类型多 670 大数据作为一种数据集合, 当我们使用这个概念的时候, 实际包含有哪几层含义? ABCD 多选题 数据很大 构成复杂 变化很快 蕴含大价值 671 云计算的特点包括以下哪些方面? ABC 多选题 服务可计算 高性价比 服务可租用 低使用度 672 "云计算使得使用信息的存储是一个() 的方式, 它会大大地节约网络的成本, 使得网络将来越来越泛在、 越来越普及, 成本越来越低。" AD 多选题 分布式 密闭式 密集式 共享式 673 20 世纪中后期至今的媒介革命, 以( ) 的出现为标志 ACD 多选题 互联网 自动化 计算机 数字化 674 建立大数据需要设计一个什么样的大型系统? ABCD 多选题 能够把应用放到合适的平台上 能够开发出相应应用 能够处理数据 能够存储数据 675 下列哪些国家已经将大数据上升为国家战略? ABCD 多选题 英国 日本 美国 法国 676 SPSS中,数据整理的功能主要集中在( )等菜单中 AD 多选题 数据 直销 分析 转换 677 "在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是( )" ACD 多选题 "将负样本重复10次,生成10w样本量,打乱顺序参与分类" 直接进行分类,可以最大限度利用数据 从10w正样本中随机抽取1w参与分类 "将负样本每个权重设置为10,正样本权重为1,参与训练过程" 678 合并单元数据输出需遵循的标准? AB 多选题 IEC60044-8 IEC61850-9-2 IEC60044-7 IEC60044-1 679 对于SCADA系统来说,需要监视下列哪些数据 AB 多选题 遥测 遥信 遥调 遥控 680 合并单元发送数据给间隔层设备同步原则( ) AC 多选题 点对点-光纤直连-谁使用谁同步 点对点-光纤直连-谁发送谁同步 组网-经过交换机-谁发送谁同步 组网-经过交换机-谁使用谁同步 681 可通过GOOSE报文传递的应用数据包括() BCD 多选题 交流采样值 直流/温度值 档位信息 开关量 682 过程层网络实现( )的数据通讯 ABC 多选题 间隔层与过程层 间隔层设备之间 过程层设备之间 间隔层和站控层 683 信息一体化平台可以采集以下哪些数据()? AC 多选题 SCADA数据 视频图像 故障录波数据 管理信息数据 684 下面对HBase的描述哪些是正确的? BCD 多选题 不是开源的 是面向列的 是分布式的 是一种NoSQL数据库 685 MapReduce与HBase的关系,哪些描述是正确的? BC 多选题 "两者不可或缺,MapReduce是HBase可以正常运行的保证" "两者不是强关联关系,没有MapReduce,HBase可以正常运行" MapReduce可以直接访问HBase 它们之间没有任何关系 686 下面哪些选项正确描述了HBase的特性? ABCD 多选题 高可靠性 高性能 面向列 可伸缩 687 下面哪些概念是HBase框架中使用的? AC 多选题 HDFS GridFS Zookeeper EXT3 688 下面对LSM结构描述正确的是? AC 多选题 顺序存储 直接写硬盘 需要将数据Flush到磁盘 是一种搜索平衡树 689 HFile数据格式中的KeyValue数据格式,下列选项描述正确的是()。 AD 多选题 是byte[]数组 没有固定的结构 数据的大小是定长的 有固定的结构 690 HBase性能优化包含下面的哪些选项? ABCD 多选题 读优化 写优化 配置优化 JVM优化 691 Rowkey设计的原则,下列哪些选项的描述是正确的? ABC 多选题 尽量保证越短越好 可以使用汉字 可以使用字符串 本身是无序的 692 HBase构建二级索引的实现方式有哪些? AB 多选题 MapReduce Coprocessor BloomFilter Filter 693 关于HBase二级索引的描述,哪些是正确的? AB 多选题 核心是倒排表 二级索引概念是对应Rowkey这个“一级”索引 二级索引使用平衡二叉树 二级索引使用LSM结构 694 下列关于BloomFilter的描述正确的是? AC 多选题 是一个很长的二进制向量和一系列随机映射函数 没有误算率 有一定的误算率 可以在BloomFilter中删除元素 695 HBase官方版本可以安装在什么操作系统上? ABC 多选题 CentOS Ubuntu RedHat Windows 696 下列哪项可以作为集群的管理? ABD 多选题 Puppet Pdsh ClouderaManager Zookeeper 697 配置机架感知的下面哪项正确 ABC 多选题 如果一个机架出问题,不会影响数据读写 写入数据的时候会写到不同机架的DataNode中 "MapReduce会根据机架获取离自己比较近的网络数据" 698 Cloudera提供哪几种安装CDH的方法? ABCD 多选题 Clouderamanager Tarball Yum Rpm 699 Hadoop作为分布式计算技术的杰出代表,其主要特征包括()。 ABCD 多选题 可靠性 健壮性 简单性 高效性 700 Hadoop是当前大数据平台的事实标准,下列对Hadoop的描述中正确的是()。 ABCD 多选题 Hadoop是一个由Apache基金会开发的分布式系统开源架构 Hadoop的初始设计思路来源于Google发布的学术论文 Hadoop在当前衍生出一系列优秀的开源项目,包括Hbase、Hive、Pig等 "Hadoop的两个核心部分是HDFS(HbaseDistributedFileSystem)和MapReduce计算框架" 701 Hadoop分布式文件系统(HDFS)具有()的特性。 ACD 多选题 适合数据批量处理 数据处理能力极强 最大化吞吐率 允许计算向数据迁移 702 Hadoop及其生态系统,可以部署在() AD 多选题 Linux OS/2 DOS UNIX 703 关于大数据的内涵,以下理解正确的是() ABCD 多选题 大数据就是很大的数据 大数据在不同领域,又有不同的状况 "大数据里面蕴藏着大知识、大智慧、大价值和大发展" 大数据还是一种思维方式和新的管理、治理路径 704 大数据的价值体现在() ABCD 多选题 大数据给思维方式带来了冲击 大数据为政策制定提供科学依据 大数据助力智慧城市提升公共服务水平 大数据实现了精准营销 705 对大数据的管理和使用包括哪些方面() ABCD 多选题 大数据的运营 大数据的挖掘 大数据的应用 大数据的存储 706 下面对Streaming说法正确的是( )? ABCD 多选题 事件驱动 连续查询 数据不存储,先计算 实时响应,低延迟 707 下列哪些措施是为了保障数据的完整性( ) ABCD 多选题 元数据可靠性保证 重建失效数据盘的副本数据 安全模式 集群数据均衡 708 HBase提供多种数据访问接口的方式,包含接口有()。 AB 多选题 Java API HBase Shell Thrift Gateway REST Gateway
==================判断题================================== 709 Apriori 算法是一种典型的关联规则挖掘算法。 对 710 大数据的 4V 特点是 Volume(数据量大) 、 Velocity(处理速度快) 、 Variety(多样性) 、Veracity (真实性)。 对 711 聚类分析可以看作是一种非监督的分类,没有训练集。 对 712 数据规范化指将数据按比例缩放 ,使之落入一个特定的区域。 规范化的常用方法有:最大 -最小规范化、z-score规范化、小数定标规范化。 对 713 “大数据”是指存储量超过 100TB 的数据集。 错 714 DBSCAN算法会把包括噪声点的所有点划分到各自的簇中。 错 715 DBSCAN算法会删掉它认为是噪声点的数据点。 对 716 FP-growth算法是一种于分类预算方法。 错 717 SQL中删除表的命令是delete table。 错 718 大数据分析可以从海量数据中发现趋势或者规律,具有很高的应用价值。 对 719 大数据与传统数据有着本质上的差别,因为大数据有专门的处理软件。 错 720 大数据最重要的特点是数据量大,噪声数据少,所以收集数据过程中要力求精确。 错 721 多次抛一枚硬币,数字朝上的频率是1/2。 错 722 分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库。 对 723 关联规则挖掘就是寻找满足最小置信度的所有频繁项集。 错 724 简单随机抽样中,各对象被抽中的概率可能会存在差异。 错 725 具有较高置信度的项集也一定具有较高的支持度。 错 726 逻辑回归算法通常用于关联规则挖掘。 错 727 逻辑回归算法只能用于二分类问题,即输出只有两种,分别代表两个类别。 错 728 散点图在统计工作中主要功能是观察变量之间的相关关系。 对 729 "以下SQL,收入 BETWEEN 2000 AND 5000,表示收入在 2000至 5000之间,包括 2000但不包括 5000。" 错 730 在硬件条件充裕的情况下,可在数据库中尽量多的建立索引,因为使用索引可以快速访问。 对 731 "安装完全分布式Apache Hadoop的核心配置文件有core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml。" 对 732 Hdfs,yarn,hbase,以及spark资源监控,spark任务监控的默认web端口分为50070,8088,16010,8080,4040。 对 733 spark的on yarn client模式启动命令为spark-submit --master yarn-client或spark-shell --master yarn-client。 对 734 能够充分利用数据价值、先挖掘到数据价值的企业将会占领先机,不注重大数据等新兴技术的企业,将会落后甚至被淘汰。数据将成为最有价值的资产。 对 735 数据市场化的价值,在于为各个经济体之间的数据交易提供便捷的途径,使数据以流程化、标准化的方式进行交付。 对 736 在数据缺失严重时,会对分析结果造成较大影响,因此对剔除的异常值以及缺失值,要采用合理的方法进行填补,常见的方法有平均值填充、K最近距离法、回归法、极大似线估计法等。 对 737 FusionInsight Manage 支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁。( ) 对 738 由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。 对 739 数据异常值检验方法以正态分布为前提,若数据偏离正态分布或样本较小时,则检验结 果未必可靠,校验是否正态分布可借助W检验、D检验。 对 740 随着数据量的增大,异常值和缺失值对整体分析结果的影响会逐渐变小,因此在“大数据”模式下,数据清洗可忽略异常值和缺失值的影响,而侧重对数据结构合理性的分析。 对 741 聚类问题是一种无监督的学习任务,即训练样本的标记信息是未知的,通过对无标记训练样本的学习,来揭示数据的内在性质,就可以为进一步数据分析提供基础。 对 742 自然界中某种事物发生时其他事物也会发生,则这种联系称之为关联。 对 743 "FP-Growth算法不产生候选集而直接生成频繁集的频繁模式增长算法,该算法采用分而治之的策略。" 对 744 关联分析的目的是找出数据集合中隐藏的关联网,是离散变量因果分析的基础。 对 745 折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。 对 746 折线图主要用于显示在相等时间间隔下数据的趋势。 对 747 饼图一般将最大部分设置在12点指针的左边以强调其重要性,将第二大部分设置在12点的右边,其余的逆时针方向跟进,最小的切片就会落在靠近图表底部——最不重要的位置。 错 748 在折线图中,类别数据沿水平轴均匀分布,所有值数据沿垂直轴均匀分布。 对 749 “词云”就是对网络文本中出现频率较高的“关键词”给予视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使访问者只要一眼扫过文本就可以领略文本的主旨。 对 750 算术平均数公式是算数平均数=总体标志值(数据)总和/总体单位总和。 对 751 四分位差易受极端值的影响。 错 752 变异系数越小,变异(偏离)程度越小,风险也就越小。 对 753 变异系数又称“离散系数”也称“标准差率”,是标准差与平均数的比值,记为C.V。 对 754 数据是指对客观事件进行记录并可以鉴别的数字。 错 755 网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息网络数据采集方法。 对 756 定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。 对 757 逻辑树分析法主要是帮助理清思路。 对 758 数据分析时,将影响业务发展的因素罗列出来,对不同因素进行主次辨析,并展开递进分析,要比直接从“想当然”的某个因素匆忙入手要准确和有效得多。 对 759 平均数消除了个体之间的差异,容易导致误判。 对 760 BP网络是目前应用最广泛的神经网络模型之一,是一种按误差逆传播算法训练的多层前馈网络。 对 761 神经网络由于学习速率是固定的,因此网络的收敛速度慢,需要较长的训练时间。 对 762 相比神经网络算法来看,决策树算法的可解释性较差。 错 763 回归研究的是数据之间的非确定性关系。 对 764 建立回归模型之前,必须先进行主成分分析。 错 765 时间序列是按时间顺序的一组数字。 对 766 遗传算法与传统优化算法的极大区别是遗传算法从问题解的串集开始搜索,而不是从单个解开始。 对 767 遗传算法是从单个初始值迭代求最优解的,容易误入局部最优解。 错 768 噪声值处理方法主要有分箱、分类和聚类。 错 769 等深分箱法也即统一区间,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子深度。 错 770 聚类将类似的值聚成簇。直观的,落在簇集合之外的值被视为离群点。 对 771 统计方法主要包括描述统计和推断统计。 对 772 四分位数是衡量离散趋势的指标。 错 773 中位数可以用于顺序数据和分类数据。 错 774 数据来源于信息,是经过加工后的信息。 错 775 数据主动产生是在用户原创内容阶段。 对 776 分层抽样是将总体中各单位按一定顺序排列,根据样本容量要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位的抽样方式。 错 777 数据分析是将数据转化成信息,再将信息转化成知识的过程。 对 778 因为甲公司的工资平均数比乙公司高,所以甲公司的工资水平比乙公司高。 错 779 推断统计是一种汇总统计,用于总结信息集合的特征。 错 780 相关变量中,多个自变量影响一个或多个因变量的统计分析方法称为多元回归分析。 对 781 在数据分析中,我们发现通常重要的结果只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。这个法则叫帕累托法则。 对 782 在保证数据准确的前提下,数据是绝对正确的,因此可以完全依赖数据直接得出分析的结论。 错 783 随机二次抽样法是通过多次重复的使用交叉检验法,来得到一组准确率等效果的指标。 错 784 时间序列的主要目的是用来预测,根据已有的时间序列数据来预测未来的变化。 对 785 如果需要完成的任务是预测一个连续值,则这个任务是回归,如果是离散值,则是分类。 对 786 动态定价是指电子商务企业通过数据构建客户资料,来实现灵活的定价和折扣策略。 对 787 "数据分析报告的重点是传递分析的结论以及其中有价值的信息给决策者,因此报告的结论与建议是需要重点表述的。" 对 788 数据分析报告的目录要尽可能的详细,这样才能完全体现报告的内容。 错 789 "MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为,移动数据需要大量的网络传输开销。" 对 790 Flume 的数据流可以根据 headers 的信息发送到不同的channel 中。( ) 对 791 "HDFS集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。" 对 792 HDFS是一个部署在集群上的分布式文件系统,因此,很多数据需要通过网络进行传输。 对 793 "HDFS名称节点会定期做检查数据块的副本数量,一旦发现某个数据块的副本数量小于冗余因子,就会启动数据冗余复制,生成新的副本。" 对 794 "在HDFS NameNode中 FsImage中并没有记录具体的记录块在哪些数据节点上存储的,是通过数据节点和名称节点在运行时不断通过沟通而实时维护这些信息的,而这些信息都是存储到内存单中去了。" 对 795 HDFS的命名空间包含目录、文件和块。 对 796 聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。 对 797 数据分类的步骤为:1 建立一个聚类模型, 描述数据类集或概念集; 2使用模型对将来的或未知的对象进行分类。 错 798 文本挖掘是从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程,又称信息检索。 错 799 DBSCAN 算法是一种基于密度的聚类算法,对异常值非常敏感,因此要在聚类前进行异常值分析。 错 800 DBSCAN算法中,在给定的Eps半径邻域内,所有核心点的点数都不应该少于 MinPts 阈值。 对 801 聚类分析中,各变量的取值范围在数量级若差异过大,则会影响输出结果。 对 802 落在置信区间外的点通常被认为是离群点。 对 803 "若一个神经网络(BP 神经网络)模型无隐藏层,输出层个数也只有一个,则可以看做是逻辑回归模型。" 对 804 数据清洗过程中,对遗漏数据的处理方法有:忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。 对 805 四分位数是指在统计学中把序列中的数值由小到大排列并分成四等份,处于分割点位置的数值。 对 806 无论是低维数据还是高维数据,DBSCAN 的空间复杂度始终都是 O(m)。 对 807 在多元回归分析中,检验方程的拟合优度用调整后的 R 的平方效果更好。 对 808 支持度是对关联规则的准确度的衡量。 错 809 hadoop的HDFS文件格式化命令为:hadoop namenode -format。 对 810 "HDFS的namenode保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息也存储在硬盘上。" 错 811 Secondary namenode就是namenode出现问题时的备用节点。 错 812 如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。 错 813 "形如X→Y的蕴含表达式,其中X和Y是不相交的项集。X称为规则的左部或规则的前提(简记为 LHS),Y称为规则的右部或规则的结论(简记为RHS)。" 对 814 集中趋势的概念就是平均数的概念,表明所研究对象在一定的时间和空间条件下的共同特征。 对 815 分类是按照某种指定的属性特征将数据归类,需要确定类别的概念描述,并找出类判别准则。 对 816 分类不可用于提取描述重要数据类的模型或预测未来的数据趋势。 错 817 在分类的过程中,用训练集训练数据,再用训练集评估模型的性能,得出模型性能很好的结果,则分类模型构建成功。 错 818 相关图中的跳点是指时间序列从上升趋势突然变为下降趋势的点,拐点是指与其他数据不一致的观测值。 错 819 HDFS的NameNode保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息是存储在内存中的。 对 820 HDFS分布式文件系统不可以调整冗余数据存储的位置。 错 821 HDFS中当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自一些数据节点的心跳信息,这时,这些数据节点就会被标记为“宕机”,节点上面的所有数据都会被标记为“不可读”,名称节点不会再给它们发送任何I/O请求。 对 822 HDFS中每个数据节点会定期向名称节点发送信息,向名称节点报告自己的状态。 对 823 Hadoop框架是用Java实现的,所以MapReduce应用程序则一定要用Java来写。 错 824 时序预测是指通过时间序列搜索出的重复发生率较高的模式,与回归预测一样,也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。 对 825 决策树是做分类预测的最优算法,因为此算法对噪声数据和共线性都不敏感。 错 826 神经网络对未经过训练的数据具有分类功能,但其需要很长时间进行训练。 对 827 函数imread( )是用于读取图片文件中的数据。 对 828 相异度矩阵存储n个对象两两之间的相似性,表现形式是一个n×n维的矩阵。 对 829 Ganglia不仅可以进行监控,也可以进行告警。 错 830 神经网络算法可以使权值收敛到某个值,但并不保证其为误差平面的全局最小值。 对 831 大数据时代是先有数据后有模式 对 832 MapReduce的核心理念是将一个大的运算任务分解到集群每个节点上,充分运用集群资源,缩短运行时间 对 833 HBase中Compaction的目的是减少同一个Region,同一个ColumnFamily下的文件数目()。 对 834 barrier是一个特殊的元组,这些元组被周期性注入到流图中并随数据流在流图中流动,每个barrier是当前快照和下一个快照的分界线( )。 对 835 Sink取走数据并写入目的地后,会将event从channel中删除( )。 对 836 Flume中source必须确切的与一个channel关联( )。 对 837 FusionInsight HD可以针对整个集群、某个服务、某个节点进行健康检查,以确定各项指标是否正常( )。 对 838 Kafka 日志的清理方式有两种: delete 和compact。默认值是delete。( ) 对 839 fusioninsight HD 产品中,一个典型的kafka 集群包含若干个producer 若干个consummer 和一个zookeeper 集群?( ) 错 840 Channel 的作用类似队列,用于临时缓存进来的数据,当Sink 成功地将数据发送到下一跳的Channel或最终目的,数据会从Channe1 移除( ) 对 841 HDFS 存储数据时,关键数据根据实际业务需要保存在具有高度可靠性的节点中,通过修改Danodo的存储策略,系统可以将数据强制保存在指定的节点组中。( ) 对 842 Spark on Yarn-client 适合用于生产环境是因为可以更快的看到 APP 的输出。( ) 错 843 在Streaming 中,消息可靠性级别中精确一次是通过 ACK 机制来实现的。( ) 错 844 Zookeeper 所有节点都可以处理读请求。( ) 对 845 网络爬虫可以爬取互联网上任意的网页。 错 846 Applicationmaster 采用轮询的方式通过 RPC 协议向Resource Manager 申请和领取资源( ) 对 847 在YARN 的任务调度中,一旦Applicationmlaster 申请到资源后,使与对应的Resourcemanager 通信,要求它启动任务( ) 错 848 绘制词云时,发现词云中的中文全变成了小方框,是由于没有指定合适的中文字体。 对 849 Hive 不支持超时重试机制。( ) 错 850 Fusioninsight 中, Hiveserver 将语句进行编译,解析成对应的Yarn任务. Spark 任务或者HDFS 操作,从而完成数转换,分析。() 错 851 Flume 传输的可靠性是指Flume 在传输数据过程中,当下一跳的Flume 节点故障或者数据接收异常时,可以自动切换到另外一路上继续传输?( ) 对 852 假设HDFS 在写入数据是只存 2 份,那么在写入过程中, HDFS Client 先将数据写入Datanode1,再将数据写入Datanode2。( ) 错 853 容量调度器在进行资源分配,现有同级的 2 个队列Q1 和 2,他们的容量均为 30,其中Q1已使用 8,Q2 已使用 14,则会优先将资源分配给 Q1。( ) 对 854 server. channels.chl. transactioncapacity 表示事务大小,即当前channe 支持事务处理的事件个数,可和source 的batchsize 设置为同样大小,但不能小于batchsize( ) 对 855 Flume 架构中,一个sink 可以连接多个channel。( ) 错 856 Fusioninsight 是华为企业级大数据存储,查询,分析的统一平台,能够帮助企业快速构建海量数据信息处理系统,通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。 对 857 Fusioninsight Tool 是为技术支持工程师和维护工程师提供的一套健康检查工具,能够检查集群相关节点,服务的健康状态中潜在的问题,并生成健康检査报告。方便技术支持工程和维护工程师快速了解系统的健康状况. 对 858 Kata 是ー个高吞吐.分布式,基于发布订阅的消息系统,利用kafka 技术可在廉价FCServer 上搭建起大规模消息系统。 对 859 flink 是ー个批处理和流处理结合的统一计算框架,其核心是一个数据分发以及并行计算的流数据处理引擎。 对 860 Spark Streaming 计算基于DStream 将流式计算分解成一系列短小的批处理作业( ) 对 861 导入数据到Hive 表时不会检查数据合法性,只会在读取数据时候检查。 对 862 topology 的处理逻辑都在Bolt 中( ) 对 863 Flume 的propertles. protertlses 配置文件中可以配置多个channel 来传输数据. 对 864 驱动型source 是flume 周期性主动去获取数据. 错 865 Hbase 的数据文件File 中一个Keyvalue 格式包含Key, yale, Timestamp, Keytype等内容 对 866 Kafka Logs segment 文件命名规全局的第一个segment 从 0 开始,后续每个segment 文件名为上一个全局partionfset(偏移message 数)。 对 867 Hive 中“ Group by”指的是通过一定的规将每一个数据集划分成若干个小的数据集然后针对若干个小的数据集进行数据分组处理. 对 868 Hbase 的最小存储单元是Region。 错 869 为减少写入磁盘的数据量, mapreduce 支持对MOF( mapoutfile)进行压缩后再写入。 对 870 Resourcemanager 采用高可用方案,当Active resourcemanager 发现故障时,只能通过内置的zookeeper 来启动standby的resourcemanager,将其状态切换为active。 错 871 Hive 是一种数据仓库处理工具,使用类sql 的HivesqlL 语言实现数据查询功能,所有Hive 的数据都存储在HDFS 中。 对 872 Kafka Consumer 写数据总体流程是, consumer 连接指定Topic partition 所在的Leaderbroker.用主动获取方式从 KafKa 中获取消息。 对 873 Fusionis 界面上,当收到Kafka 磁盘容量不足告警,且该告警的原因已经排除硬件故障时系统管理员需要考虑扩容解决此问题。 对 874 二级索引为提供了按照某些列的值进行索引的能力,二级索引先查索引表,再定位到数据表中的位置,不用全表扫描. 对 875 colocation(同分布)文件级的同分布实现文件的快速访问,避免了因数据迁移带来的大量网络开销( ) 对 876 Hadoop 系统中,如果HDFS 文件系统的备份因子是 3,那么Mapreduce 每次允许task都是从 3 个有副本的机器上传输需要处理 错 877 Flume 架构中,一个Source 可以连接多个Channel。 对 878 Kafka 中partition replication 之间同步数据,从partition 的leader 复制数据到fo11ower 需要线程( replication FetcheThread),Follower(一个follower 相当于consumer 主动从leader 批量拉取消息的,这极大提高了吞吐量. 对 879 在Flink 中, checkpoint 机制能够保证应用在运行过程中出现失效时,从某一个检查点恢复,在此过程中,流快照是根据数据流入建立的( ) 对 880 Hive 中的“group by”指的是通过一定规则将一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行数据分组处理. 对 881 Hive 中UNION ALL 操作符用于合并两个或多个select 语句的结果集,结果集中,不允许有重复的值 错 882 Kafka 是一个高吞吐,分布式,基于发布订阅的消息系统,利用Kafka 技术可在廉价PC Server 上搭建起大规模消息系统。 对 883 如果某些Containers 的物理内存利用率超过了配置的内存阈值,但所有Containers的总内存利用率并没有超过设置的Nodemanager 内存值,那么内存使用过多的containers仍可以继续运行。 对 884 Fusioninsight HD 系统中, Hbase 支持动态扩展列。 对 885 channels 支持事提供较弱的顺序保证,可以连接任何数量的Source 和Sink。 对 886 Kafka Producer 读数据总体流程是, Producer 连接任意存活的Broker,请求制定Topic、Partition的Leader 元数据信息,然后直接与对应的Broker 直接连接,发布数据。 错 887 Hbase 中penscanner 的过程,会创建两种不同的Scanner 来读取H-File 和Memstore的数据,HFi1e对应的ScanStorefilescanner, Memstore 对应的Scanner 为Memstorescanner。 对 888 Spark Streaming 容错机制是指RDD 中任意的Partition 出错,都可以根据其父RDD 重新计算生成,如果父RDD丢失,则需要去磁盘中查找原始数据。 对 889 Hbase 的bloomfliter 是用来过滤数据的? 错 890 Fusioninsight 中Hive 包含 2 个角色,hiveserver 和Metastore'? 对 891 Colocation 同分布文件级的同分下买现文件的快速访问,避免了因数据迁移带来的大量网络开销. 对 892 Zookeeper 的增强性包括在审计日志中添加ephemeral node 被刑除的审计日志. 对 893 假设在写入数据时只存 2 份,那么写入过程中, HDFS CLIENT/编将数据写入Datanodel,再将数据写入Datanode2. 错 894 Yarn-client 和Yarn-cluster 主要区是Application Master 进程的区别. 对 895 用户权限管理基于角色的访问控制(RBAC),提供可视化的多组统一的集群中用户权限管理。 对 896 对高价值高度聚合的信息和知识的批次处理是大数据行业主要商业诉求. 对 897 Mapreduce 过程中、默认情况下,一个分片就是一个块,也是一个maptask.. 对 898 Flink 采用checkpoint 用程序运行中的容错性。 对 899 在Mapreduce 编程中,代码不仅要描述做什么,还要描述具体怎么做。 错 900 Flume 的数据流可以根据headers,的信息发送到不同的Channel 中? 对 901 "在Flink 中, checkpoint 机制能明在运行过程中出现失败时,从某一个检查点恢复,在此过程中,流快照是根据数据流入依次创建的。" 对 902 Flume 的数据流可以根据 headers 的信息发送到不同的 channel 中? 对 903 Spark 任务的每个 stage 可划分为 job,划分的标记是 shuffle 错 904 如果 YARN 集群中只有 Default、 QueueA 和 QueueB 子队列,那么允许将他们的容里分别设置为 60%、25%和 22% 错 905 Kafka 是一个分布式的消息发布订阅系统,它只是进行消息的转发,并不会保存消息。 错 906 Hadoop 的 NameNode 用于存储文件系统的元数据 对 907 Hadoop 系统中,如果文件系统的备份因子是 3,那么每次 MapReduce 任务运行的 task 所需要的文件都要从 3 个有副本的机器上传输需要处理的文件。 错 908 HDFS 的 Client 写入文件时,数据的第一副本写入位置是由 NameNode 确定,其他副本的写入位置由 DataNode 确定 错 909 RDD 可以从 Hadoop 兼容的文件系统生成,生成之后可以通过调用 RDD 的算子对 RDD 的数据进行部分更新。 错 910 HDFS 支持大文件存储,同时支持多个用户对同一个文件的写操作,以及在文件任意位置进行修改 错 911 Spark 是基于内存的计算,所有 Spark 程序运行过程中的数据只能存储在内存中 错 912 Spark 应用运行时,如果某个 task 运行失败则导致整个 app 运行失败 错 913 Flume 传输数据过程中,sink 取走数据并写入目的地后,会将 event从channe 中刪除 对 914 HDFS机制中 NameNode 负责管理元数据, Client 端每次读请求都需要从Name Node 的元数据磁盘中读取元数据信息以此获取所读文件在 DataNode 的位置 错 915 Spark on YARN 模式下,没有 NodeManager 的节点不能启动 executor 执行task 对 916 Spark 和 Hadoop 都不适用于迭代计算的场景。 错 917 Spark 任务的 Executor 可以执行多个 task 对 918 Hadoop 支持数据的随机读写。 错 919 NameNode 负责管理元数据信息metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。 错 920 MapReduce 的 input split 一定是一个 block。 错 921 MapReduce适于PB级别以上的海量数据在线处理。 错 922 链式MapReduce计算中,对任意一个MapReduce作业,Map和Reduce阶段可以有无限个Mapper,但Reducer只能有一个。 对 923 MapReduce计算过程中,相同的key默认会被发送到同一个reduce task处理。 对 924 HBase对于空(NULL)的列,不需要占用存储空间。 对 925 HBase可以有列,可以没有列族(column family)。 错 926 HBase是一套高性能的分布式数据集群,必须在大型机或者高性能的服务器上进行搭建。()。 对 927 HBase是Apache的Hadoop项目的子项目,利用Hadoop HDFS作为其文件存储系统,适合于非结构化数据存储。() 对 928 MapReduce程序可以直接读取HBase内存储的数据内容。( ) 对 929 使用delete命令将HBase中的一张表进行删除操作。( ) 错 930 使用Shell命令insert对HBase中的一张表进行数据添加操作。() 错 931 使用Shell命令create在HBase系统中添加新表操作。( ) 对 932 HBase系统适合进行多表联合查询以及复杂性读写操作。() 错 933 HBase允许创建空表,不需要建立列簇。() 错 934 Java.exe 是 JDK 的编译工具 错 935 编译后的 Java 应用程序可由 Javac .exe 解释执行 错 936 Java 应用程序编译后生成二进制可执行文件 错 937 编译后的 Java 应用程序可直接在操作系统下运行 错 938 命令行解释执行 java 应用程序必须包含扩展名 (.class) 错 939 语法错误需要等到运行时才会被发现 错 940 标识符中的字母区分大小写 错 941 符号常量名必须全部大写 错 942 多行注释和文档注释不可以嵌套使用 错 943 求余 (%) 的运算结果符号与除数相同 错 944 字符串属于基本数据类型 错 945 不能使用连续 "="给多个变量赋值 错 946 没有特别指明的整数都是属于长整型 错 947 Java 的布尔类型与 C 语言相同 错 948 赋值运算具有左结合性 错 949 编译后的 Java 应用程序可由 Java .exe 解释执行 对 950 Java 源程序经编译后生成字节码文件 对 951 命令行编译 java 应用程序必须包含扩展名 (.java) 对 952 Java 源程序的文件名必须与 public 类的名称完全一致 对 953 任何 Java 程序都必须以类的形式出现 对 954 一个 Java 源程序文件中可以定义若干个类 对 955 一个 Java 源程序文件中只能定义一个 public 类 对 956 Java 系统本身对程序的逻辑错误没有识别能力 对 957 只有整型数据可以进行求余 (%)运算 对 958 浮点类型数据不能进行求余运算 对 959 8 种基本数据类型的类型名全为小写 对 960 Java 变量遵从先声明后使用的原则 对 961 变量赋初值不能使用连续 "=" 对 962 没有特别指明的浮点数都是属于双精度 对 963 Java 标识符的长度没有限制 对 964 Java 标识符中可以使用汉字 对 965 Java 的字符串必须在一行内写完 对 966 ++、-- 运算只适用于变量 对 967 关系运算的结果一定为布尔值 对 968 逻辑运算的操作数必须是布尔型 对 969 赋值运算中的左值必须是变量 对 970 在 Flask 项目中定义路由时,只能使用装饰器的方法( )。 错 971 在 Flask 中定义路由时,默认监听的 HTTP 方式是 GET( )。 对 972 ORM 模型中实现了 3 层映射关系,其中关系数据库中的列映射为类属性 ( )。 对 973 在使用 Flask-WTF 自定义表单类时,使用 StringField 表示文本字段( )。 对 974 在使用 flask_moment 模块进行格式化日期时间时,不需要进行实例化( )。 错 975 使用 Flask 框架时必须要使用 Flask 类实例化一个 app 对象( )。 对 976 "在使用 Flask-SQLAlchemy 创建 ORM 模型时,必须要使用 SQLAlchemy 实例化一个 db 对象( )。" 对 977 Jinjia2 模板引擎中提供的 safe 过滤器是用来启动策略 ( )。 错 978 在使用 Flask-WTF 自定义表单时需要自定义代码以启动 CSRF( )。 错 979 可以使用 get_flashed_messages()全局函数获取 flash 函数闪现的消息列表( )。 对 980 Python中用来创建1个空集合的方式是使用一对花括号{}。( ) 错 981 "执行下列代码后,最终输出结果为201。( )list1=[10,45,201,32,78,55];print(len(list1))" 错 982 "执行下列代码后,输入数字100后,最终的输出结果为 class 'int' 。( )inp=input('请输入一个整数:')print(type(inp))" 错 983 解决汉诺塔的问题使用的思想是函数的递归。( ) 对 984 集合中的元素都是唯一的,不允许出现重复的元素。 对 985 列表和元组的切片方式不同,列表使用的位置索引,元组使用的是键索引。 错 986 Python代码”str1=’Hello’;print(str1.swapcase())”执行的结果为‘HELLO’。 错 987 Python代码”1>2 or 3<4”执行的结果为True。 对 988 Python中代码缩进使用的是空格或Tab,这2种缩进可以混用。 错 989 Yarn 可以作为Spark的资源调度框架 对 990 scala中基本数据类型和java完全一致 错 991 在噪声数据中, 波动数据比离群点数据偏离整体水平更大。 错 992 "对于大数据而言, 最基本、 最重要的要求就是减少错误、 保证质量。 因此,大数据收集的信息量要尽量" 错 993 "一般而言, 分布式数据库是指物理上分散在不同地点, 但在逻辑上是统一的数据库。 因此分布式数据库具有物理上的独立性、 逻辑上的一体性、 性能上的可扩展性等特点。" 对 994 大数据仅仅是指数据的体量大。 错 995 当今世界四大趋势指的是经济全球化、 全球城市化、 全球信息化、 信息智慧化。 对 996 Ganglia 不仅可以进行监控,也可以进行告警。 对 997 Block Size 是不可以修改的。 错 998 Nagios 不可以监控 Hadoop 集群,因为它不提供 Hadoop 支持。 错 999 如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作。 错 1000 Cloudera CDH 是需要付费使用的。 错