阿里云大数据工程师(aca/acp)题库和答案
1 .阿里云MaxCompute连接工具包含查询编辑器MaxCompute控制台、使用客户端(odpscmd) 连接、DataWorks和MaxCompute Studio四种。其中哪一种需要手动安装,适用于熟悉IntellJ IDEA工具的用户?d
A. 查询编辑器MaxCompute控制台
B.使用客户端(odpscmd) 连接
C. DataWorks连接
D. MaxCompute Studio
5、HDFS主要采用主从结构模型,主节点负贵数据请求与元故照的保存以下法项中哪个节点负数数据存储?a
A. NameNode
B. Jobtracker
C. DataNode
D. SecondaryNameNode
6.海量的数据存储是大数据应用中面临的重要问题,下面哪项技术或产品能解决海量数据存储问题()d
A 阿里云的RDSMySQL数据库
B 单机Redis数据库
C 本地MySQL数据库
D 分布式文件系统
7.有专家在总结人类科研方式的时候,指出人类一共历经了经验科学、理论科学,计算科科学四种科研方式,其中数据密集型科学的代表实验是?c
A.典型案例:伽利略球体落地实验实验
B.典型案例:阿基米德浮力定律
C.典型案例:超级计算机模拟核爆炸实验
D. 典型案例:大数据提速药物研发的应用
8.关系数据库(Relational Database)数据按关系模型来组织的数据库,主要用于存储()。a
A.结构化数据
B.半结构化数据
C.非结构化数据
D.结构化数据和非结构化数据
9.大数据开发的流程中,数据分析主要是发现隐藏在数据中的价值,下列关于数据分析的概念,描述正确的是?a
A 常用的数据分析方法不包括传统的分析算法
B 数据分析主要使用的是机器学习算法
C 数据分析是根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分
析,提取有价值的信息,发挥教据的作用
D 数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思
10机器学习PAI(Platform of Artificial Intelligence)是阿里云人工智能平台,采用机器学习PAI平台可视化构建算法模型步骤,正确的是()a
A.新建工作空间一创建模型一关联资源一操作工作流一效果预览及发布
B.新建工作空间一关联资源一操作工作流一创建模型一效果预览及发布
C.新建工作空间一关联资源一创建模型一操作工作流一效果预览及发布
D. 新建工作空间一创建模型一操作工作流一关联资源效果预览及发布
11在数据可视化的图表选择中,下列选项中属于时间序列型图表的是?c
A.曲线图
B.量化波形园
C.矩形状图
D.圆填充图
12.使用DataV进行数据可视化开发的过程中,需要了解DataV的操作流程,下面哪一项属于DataV正确的操作流程?b
A.准备工作一创建可视化应用一添加并配置可视化组件-调整组件图层位置一预览并发布可视化应用
B.准备工作一创建可视化应用一调整组件图层位置一添加井配置可视化组件一预览并发布可视化应用
C.添加井配置可视化组件一准备工作一调整组件图层位置一预览并发布可视化应用
D. 准备工作一调整组件图层位置一创建可视化应用一添加并配置可视化组件一预览并发布可视化应用
13.数据可视化可以通过图表更容易对数据进行分类、排序显示,这体现了数据可视化的哪个优势?b
A.传播速度快
B.数据更直观
C.多维展示
D.容易记忆
14.Quick Bl可以提供海量数据实时在线分析服务,支持()和丰富的可视化效果,帮助用户轻松自如地完成数据分析、业务数据探查、报表制作等工作。a
A.拖拽式操作
B.点击式操作
C.后台调用操作
D. 语音式操作
15.在大数据开发的流程中,以下哪个选项符合数据挖掘的概念?d
A.数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思
B.从大量的数据中通过算法搜索隐藏于其中信息的过程
C.将异构数据源的数据汇集在一起
d从大量的数据中剔除含噪声的数据
21.Spark最早是源于加州大学伯克利分校的Matei Zaharia等人发表的一篇论文,论文提出了一种()的概念。c
A.分布式并行计算
B.分布式文件系统
C.分布式弹性数据集(RDD)
D. 分布式微服务
22.存储数据的结构可以分为:结构化、非结构化、半结构化。下列选项中,属于非结构化数据的是?cd
A.JSON文档
B.XML文档
C.日志文件
D.图片
23 Apache Spark核心组件包含: Spark Streaming, Spark SQL. Spark Core, GraphX, Mub下列
哪个选项是对GraphX组件的描述?()b
A.提供流计算组件
B.是一个用来处理结构化数据的Spark组件
C.基于内存多语言执行的核心引擎
D.是一个分布式图处理框架.它基于Spark平台提供对图计算和图挖掘易用且简洁的一个子系统
24.Pig是Hadoop生态圈的组件之一,Pig的数据处理语言采取()方式,一步一步地进行处理。a
A.数据流
B.并行计算
C.分布式计算
D. 分布式协调服务
16.MaxCompute支持流式数据实时写入并在数据仓库中开展分析。高性能秒级弹性并发查询,满足近实时分析场景需求。体现了MaxCompute在大数据处理与分析中的什么作用?c
A.弹性能力与扩展型
B.集成AI能力
C.支持流式采集和近实时分析
D.数据存储能力
20以下选项中属于分布式文件系统,且适合运行在通用硬件上的是()a
A. HDFS
B. Oracle
C.MySQL
D. Redis
21通过选择替代的、较小的数据表示形式来减少数据量。它可以分为有参方法和无参方法,有参方法一般使用回归和对数的线性模型存储参数。无参方法一般有直方图、聚类、抽样和数据立方体聚集等方法。该描述体现了在数据预处理中的哪一种策略?d
A.数据立方体
B.维规约
C.数据压缩
D.数据归约
E.离散化和概念分层生产
22.Hologres基于行存表的主键索引和查询引擎的短路径优化,支持每秒数十万QPS高性能服务型点查支持高吞吐更新,相比开源系统性能提升10倍以上,体现了Hologres在大数据处理与分析中的什么作用?b
A.亚秒级交互式分析(OLAP)
B.联邦查询,外表加速(Federation)
C.高性能主键点查(Serving)
E. 联机事务处理(OLTP)
这只是部分题库,须要完整的,请加 zgycsmb