spark大数据-未来科技学院

Hadoop和Spark都是集群并行计算框架，都可以做分布式计算，它们都基于MapReduce并行模型Hadoop基于磁盘计算，只有map和reduce两种算子，它在计算过程中会有大量中间结果文件落地磁盘，这会显著降低运行效率而Spark基于内存计算一个task会在一个分片上以流水线的形式执行，中间不会再分配内存，避免内存被。

spark和hadoop的区别诞生的先后顺序计算不同平台不同诞生的先后顺序，hadoop属于第一代开源大数据处理平台，而spark属于第二代属于下一代的spark肯定在综合评价上要优于第一代的hadoop计算不同spark和hadoop在分布式计算的底层思路上，其实是极为相似的，即mapreduce分布式运算模型将运算分成两。

可以是可以啦，但是最好还是接触一些Hadoop的知识，毕竟spark大部分时候还是需要集成到Hadoop的yarn上面的，所以hdfs得懂吧所以，最好是看一下Hadoop的知识，了解一下，对你学好spark还是有帮助的。

GC全称Garbage Collection，是spark的垃圾回收机制。

Hadoop的HDFSHiveHBase负责存储，YARN负责资源调度Spark负责大数据计算实际上，Hadoop+Spark的组合，是一种“double win”的组合·极高的活跃度Spark目前是Apache基金会的顶级项目，全世界有大量的优秀工程师是Spark的committer并且世界上很多顶级的IT公司都在大规模地使用Spark。

毫无疑问，为专家设计的产品一般都会停留在原来的轨道上，在其他方面不会有所涉及但Spark在各个行业都存在一些有意义的分布，这可能要归功于各种市场上的大数据的泛滥所以，虽然Spark可能有更广泛的应用，但Hadoop仍然支配着原本预期的用户群在全球范围内，我们可以看到Informatica处于中心位置在欧洲。

三者是相互独立的 Hadoop是集成了yark，hdfsMapReduce三大组件的框架 Spark是一个优秀的基于内存的计算框架，可以独立使用，也可以和Hadoop集成使用，可以使用Hadoop的yarn进行资源管理可以读写hdfs文件 Scala是一个基于jvm的编程语言，Spark里面有一部分源码是用Scala编写的。

稳定性方面，由于代码质量问题，Spark长时间运行会经常出错，在架构方面，由于大量数据被缓存在RAM中，Java回收垃圾缓慢的情况严重，导致Spark性能不稳定，在复杂场景中SQL的性能甚至不如现有的MapReduce不能处理大数据，单独机器处理数据过大，或者由于数据出现问题导致中间结果超过RAM的大小时，常常出现RAM。

spark大数据

评论列表

发表评论

最近发表

标签列表

spark大数据

相关文章

评论列表

发表评论

最近发表

标签列表