1、随着大数据越来越被重视,数据采集的挑战也变的尤为突出这其中包括数据源多种多样数据量大,变化快如何保证数据采集的可靠;自然资源调查监测 11 自然资源的基本概念 资源是自然界中能为人类直接利用,并带来物质财富的部分自然资源是指在一定时间条件下地理空间大数据与自然资源调查监测的关系 大数据带来了科学范式的变化地理空间大数据服务自然资源调查监测 在地理空间大数据架构下,按照自然资源调查监测的工作要求。

2、数据采集的设计,几乎完全取决于数据源的特性,毕竟数据源是整个大数据平台蓄水的上游,数据采集不过是获取水源的管道罢了;大数据技术栈 大数据整体流程涉及很多模块,每一个模块都比较复杂,下图列出这些模块和组件以及他们的功能特性lambda架构和kappa架构 目前基本上所有的大数据架构都是基于lambda和kappa架构kappa架构和lambda架构下的大数据架构 目前各大公司基本上都是使用kappa架构或者lambda架构模式。

3、Apache Flume Flume 是Apache旗下的一款开源高可靠高扩展容易管理支持客户扩展的数据采集系统Fluentd Fluentd是另一个开源的数据收集框架Fluentd使用CRuby开发,使用JSON文件来统一日志数据Logstash Logstash是著名的开源数据栈ELK ElasticSearch, Logstash, Kibana中的那个L。