hadoop大数据入门-未来科技学院

Hive建立在Hadoop上的数据仓库，提供类似SQL语音的查询方式，查询Hadoop中的数据， 5HBase全称Hadoop Database，Hadoop的分布式的，面向列的数据库，来源于Google的关于BigTable的论文，主要用于随机访问，实时读写的大数据 6ZooKeeper是一个为分布式应用所设计的协调服务，主要为用户提供同步，配置管理，分组和命名。

相信大家在学习大数据hadoop的时候肯定会遇到各种各样的问题，这篇文章就是介绍一些常的问题及如何解决的办法1namenode无法启动，不报错可能原因是之前用root启动过，导致current文件夹的权限和所属更改了，需要更改回来解决current文件夹位于hadoop安装目录同级目录的tmpdfsnamesecondary 2WARN。

不是很容易，但是推荐一些Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop， Hive， Pig， HBase， Sqoop， Mahout， Zookeeper， Avro， Ambari， Chukwa，新增加的项目包括，YARN， Hcatalog， Oozie， Cassandra， Hama， Whirr， Flume， Bigtop， Crunch， Hue等一学习路线图 Hadoop家族学习。

当我们用hadoop处理大批量的大数据时，一种最常见的情况就是job启动的mapper数量太多而超出系统限制，导致hadoop抛出异常终止执行解决方案减少mapper的数量！具体如下 a输入文件数量巨大，但不是小文件这种情况可通过增大每个mapper的inputsize，即增大minSize或者增大blockSize来减少所需的mapper的数量增大blocksize。

hadoop可以说是目前最流行的大数据解决方案了，市面上相关的学习教程资源也很丰富个人推荐树懒学堂的hadoop教程，写的比较详实，适合新手入门hadoop教程。