Hadoop和Spark都是集群并行计算框架,都可以做分布式计算,它们都基于MapReduce并行模型Hadoop基于磁盘计算,只有map和reduce两种算子,它在计算过程中会有大量中间结果文件落地磁盘,这会显著降低运行效率而Spark基于内存计算一个task会在一个分片上以流水线的形式执行,中间不会再分配内存,避免内存被。

spark和hadoop的区别诞生的先后顺序计算不同平台不同诞生的先后顺序,hadoop属于第一代开源大数据处理平台,而spark属于第二代属于下一代的spark肯定在综合评价上要优于第一代的hadoop计算不同spark和hadoop在分布式计算的底层思路上,其实是极为相似的,即mapreduce分布式运算模型将运算分成两。

可以是可以啦,但是最好还是接触一些Hadoop的知识,毕竟spark大部分时候还是需要集成到Hadoop的yarn上面的,所以hdfs得懂吧所以,最好是看一下Hadoop的知识,了解一下,对你学好spark还是有帮助的。

GC全称Garbage Collection,是spark的垃圾回收机制。

Hadoop的HDFSHiveHBase负责存储,YARN负责资源调度Spark负责大数据计算实际上,Hadoop+Spark的组合,是一种“double win”的组合·极高的活跃度Spark目前是Apache基金会的顶级项目,全世界有大量的优秀工程师是Spark的committer并且世界上很多顶级的IT公司都在大规模地使用Spark。

毫无疑问,为专家设计的产品一般都会停留在原来的轨道上,在其他方面不会有所涉及但Spark在各个行业都存在一些有意义的分布,这可能要归功于各种市场上的大数据的泛滥所以,虽然Spark可能有更广泛的应用,但Hadoop仍然支配着原本预期的用户群在全球范围内,我们可以看到Informatica处于中心位置在欧洲。

三者是相互独立的 Hadoop是集成了yark,hdfsMapReduce三大组件的框架 Spark是一个优秀的基于内存的计算框架,可以独立使用,也可以和Hadoop集成使用,可以使用Hadoop的yarn进行资源管理可以读写hdfs文件 Scala是一个基于jvm的编程语言,Spark里面有一部分源码是用Scala编写的。

稳定性方面,由于代码质量问题,Spark长时间运行会经常出错,在架构方面,由于大量数据被缓存在RAM中,Java回收垃圾缓慢的情况严重,导致Spark性能不稳定,在复杂场景中SQL的性能甚至不如现有的MapReduce不能处理大数据,单独机器处理数据过大,或者由于数据出现问题导致中间结果超过RAM的大小时,常常出现RAM。