log4j2+flume传输二进制日志到hdfs

1.背景 当前业务使用TextFile存储日志,每天增量5T左右,集群存储空间有限,且使用TextFile日志的扩展性非常差,因此想到使用protocol bu…

windows环境下安装配置hadoop

在本地安装hadoop可以很方便的连接eclipse等工具调试hadoop源码或者是自己写的yarn应用,下面讲一下如何安装。 1.下载文件 (1)下载hado…

HDFS压缩与解压工具

版权申明:转载请注明出处。 文章来源:大数据随笔 1.压缩方式及实现类 hdfs上解压和压缩文件不像本地这么方便,所以写了一个工具。可以解压和压缩,使用的时候指…

Hadoop机架感知

版权申明:转载请注明出处。 文章来源:大数据随笔 1.数据分块 HDFS作为Hadoop中的一个分布式文件系统,而且是专门为它的 MapReduce设计,所以H…

本地及MapReduce作业读取SquenceFile

版权申明:转载请注明出处。 文章来源:大数据随笔 1.SquenceFile简介 (1)SequenceFile是一个由二进制序列化过的key/value的字节…

spark与hadoop的分布式文件缓存

版权申明:转载请注明出处。 文章来源:大数据随笔 1.简介 分布式计算框架中,各种配置文件、jar包、数据文件等都是通过分布式文件缓存进行下发的。这种方式将作业…

Hadoop分布式缓存(DistributedCache)

版权申明:转载请注明出处。 文章来源:大数据随笔 1.前言 DistributedCache是hadoop框架提供的一种机制,可以将job指定的文件,在job执…