Hive建立在Hadoop上的数据仓库,提供类似SQL语音的查询方式,查询Hadoop中的数据, 5HBase全称Hadoop Database,Hadoop的分布式的,面向列的数据库,来源于Google的关于BigTable的论文,主要用于随机访问,实时读写的大数据 6ZooKeeper是一个为分布式应用所设计的协调服务,主要为用户提供同步,配置管理,分组和命名。

相信大家在学习大数据hadoop的时候肯定会遇到各种各样的问题,这篇文章就是介绍一些常的问题及如何解决的办法1namenode无法启动,不报错 可能原因是之前用root启动过,导致current文件夹的权限和所属更改了,需要更改回来 解决current文件夹位于hadoop安装目录同级目录的tmpdfsnamesecondary 2WARN。

不是很容易,但是推荐一些Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等一学习路线图 Hadoop家族学习。

当我们用hadoop处理大批量的大数据时,一种最常见的情况就是job启动的mapper数量太多而超出系统限制,导致hadoop抛出异常终止执行 解决方案减少mapper的数量!具体如下 a输入文件数量巨大,但不是小文件 这种情况可通过增大每个mapper的inputsize,即增大minSize或者增大blockSize来减少所需的mapper的数量增大blocksize。

hadoop可以说是目前最流行的大数据解决方案了,市面上相关的学习教程资源也很丰富个人推荐树懒学堂的hadoop教程,写的比较详实,适合新手入门hadoop教程。