以下文字与答案无关
提示:有些试题内容 显示不完整,文字错误 或者 答案显示错误等问题,这是由于我们在扫描录入过程中 机器识别错误导致,人工逐条矫正总有遗漏,所以恳请 广大网友理解。
HiveContext
B:SparkSession
C:SQLContext D:SparkContext
HiveContext
B:SparkSession
C:SQLContext
D:SparkContext
SQL
B:Shark
C:Spark RDD
D:MapReduce
A、MLlib库从1.2版本以后分为两个包:spark.mllib和spark.ml
B、spark.mllib包含基于DataFrame的原始算法API
C、spark.mllib包含基于RDD的原始算法API
D、spark.ml则提供了基于RDD的、高层次的API
进入Spark的入口点
B:spark的上下文
C:spark的环境配置函数
D:spark的任务设置函数
show()
B:map() C:toDF()
D:printSchema()
shark
B:mapreduce
C:hbase
D:hive
show()
B:map()
C:toDF()
D:printSchema()
A、Spark Streaming的基本原理是将实时输入数据流以时间片为单位进行拆分,然后采用Spark引擎以类似批处理的方式处理每个时间片数据
B、Spark Streaming最主要的抽象是DStream(Discretized Stream,离散化数据流),表示连续不断的数据流
C、Spark Streaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字
D、Spark Streaming的数据抽象是DataFrame
RDD在Spark中运行时,将作业的DAG划分成不同的Stage的阶段是()。 -----------
选项: A:RDD Objects
B:DAGScheduler
C:TaskScheduler
D:Worker
主节点
B:从节点
C:执行器
D:上下文