摘要
随着信息技术的发展及云时代的来临,大数据不仅将成为信息社会的重要财富,同时也将带来巨大的挑战.在许多领域数据都是源源不断的产生,形成了"数据灾难",要发挥数据的作用,数据处理与分析起到了关键作用.Hadoop被公认为大数据行业标准开源软件,在分布式环境下提供了海量数据的处理能力,其最核心的设计是为海量数据提供存储的HDFS(Hadoop分布式文件系统)和对海量数据进行计算的MapReduce.本文将对大数据Hadoop框架进行介绍以及简要描述基于Hadoop架构的数据处理流程与实践.
-
单位北京印刷学院