大数据--第三阶段spark分布计算

大数据--第三阶段spark分布计算,中软承志,kafka是分布式的消息系统，大数据中的流式计算源头数据有很多是来源于Kafka,kafka相对于其他的消息队列来说，优势在于分布式存储数据，而且数据直接存入磁盘不丢，可以保证多次消费，另外kafka集群是轻量级，吞吐量可达百兆每秒，是消息系统中的一个重要技术。 Scala是基于JVM的支持分布式的语言，目前最流行的分布式内存计算框架底层实现基于Scala语言，最流行的分布式消息系统底层实现也是基于Scala.Scala语言编程相对于其他语言来说非常简便，易学，内部含有丰富的功能和分布式通信模型，而且Scala语言与目前使用最广泛的语言Java相互兼容，可以嵌套使用。 Spark是当前最为流行的基于内存计算的分布式框架，在 Spark 的生态圈中的框架几乎能够解决所有的大数据的应用场景。 SparkSQL支持分布式中使用SQL对分布式数据进行查询，还可以使用用户自定义函数来实现相应的功能，这种方式对开发人员来说提供了一个快速开发大数据的入口。 SparkStreaming是Spark中提供了针对实时的流数据处理的模块。针对所有的流式处理，其优点是处理数据可控，数据业务复杂，可以嵌套Spark技术栈相关技术。通过学习让学员从多视角理解分布式领域的知识，提升对大数据使用的认知能力。适用人群：对分布式消息系统有兴趣的人员，公司业务有流式计算场景需要缓存数据的从业人员

扫码下载官方App

目录

相关题库

咨询

所属系列课程

评价

扫码下载官方App

目录

学习过该课程的人还学习过：

相关题库

咨询

所属系列课程

评价