大数据技术庞大复杂,基础的技术包含数据的采集数据预处理分布式存储NoSQL数据库数据仓库机器学习并行计算可视化等各种技术范畴和不同的技术层面大数据主要技术组件HadoopHBasekafkaHiveMongoDBRedisSpark StormFlink等大数据技术包括数据采集,数据管理,数据分析,数据可视化。

第二个阶段是数据存储阶段数据的存储是大数据应用中非常重要的一环,因为它涉及到数据的安全性可靠性和可扩展性等方面随着数据量的增加,传统的数据库无法满足大数据的需求因此,在这个阶段,HadoopHBaseCassandra等分布式数据库应运而生,这些数据库可以存储海量数据,并能够实现数据的高可用性。

Hadoop这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的Zookeeper这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它Mysql我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层。

3 图计算框架图计算框架专门用于处理大规模图结构数据,并执行复杂的图算法计算Apache GiraphGraphX和Pregel是几个典型的图计算框架4 分布式数据库计算框架这些框架适用于分布式数据库系统,用于存储和处理大规模的结构化半结构化和非结构化数据Apache HBaseCassandra和MongoDB是几个知名。

Hadoop不是数据库技术Hadoop是一个由Apache基金会所开发的分布式系统基础架构用户可以在不了解分布式底层细节的情况下,开发分布式程序充分利用集群的威力进行高速运算和存储Hadoop实现了一个分布式文件系统Hadoop Distributed File System,简称HDFSHDFS有高容错性的特点,并且设计用来部署在低廉的。