相关题库

咨询

其他联系方式

所属系列课程

评价

大数据--第三阶段spark分布计算,中软承志,kafka是分布式的消息系统,大数据中的流式计算源头数据有很多是来源于Kafka,kafka相对于其他的消息队列来说,优势在于分布式存储数据,而且数据直接存入磁盘不丢,可以保证多次消费,另外kafka集群是轻量级,吞吐量可达百兆每秒,是消息系统中的一个重要技术。 Scala是基于JVM的支持分布式的语言,目前最流行的分布式内存计算框架底层实现基于Scala语言,最流行的分布式消息系统底层实现也是基于Scala.Scala语言编程相对于其他语言来说非常简便,易学,内部含有丰富的功能和分布式通信模型,而且Scala语言与目前使用最广泛的语言Java相互兼容,可以嵌套使用。 Spark是当前最为流行的基于内存计算的分布式框架,在 Spark 的生态圈中的框架几乎能够解决所有的大数据的应用场景。 SparkSQL支持分布式中使用SQL对分布式数据进行查询,还可以使用用户自定义函数来实现相应的功能,这种方式对开发人员来说提供了一个快速开发大数据的入口。 SparkStreaming是Spark中提供了针对实时的流数据处理的模块。针对所有的流式处理,其优点是处理数据可控,数据业务复杂,可以嵌套Spark技术栈相关技术。通过学习让学员从多视角理解分布式领域的知识,提升对大数据使用的认知能力。 适用人群:对分布式消息系统有兴趣的人员,公司业务有流式计算场景需要缓存数据的从业人员