最新消息:深度思考

hadoop

hadoop

log4j2+flume传输二进制日志到hdfs

log4j2+flume传输二进制日志到hdfs

liuxuecheng 1年前 (2018-07-19) 5141浏览 4评论

1.背景 当前业务使用TextFile存储日志,每天增量5T左右,集群存储空间有限,且使用TextFile日志的扩展性非常差,因此想到使用protocol buffer序列化数据,后续传输及处理使用二进制。百度+google了一圈发现没有现成案例,所...

windows环境下安装配置hadoop

windows环境下安装配置hadoop

liuxuecheng 1年前 (2018-07-19) 2105浏览 0评论

在本地安装hadoop可以很方便的连接eclipse等工具调试hadoop源码或者是自己写的yarn应用,下面讲一下如何安装。 1.下载文件 (1)下载hadoop,建议2.x版本(这里使用的是hadoop2.5.2)并解压到本地目录。 (2)下载h...

HDFS压缩与解压工具

HDFS压缩与解压工具

liuxuecheng 2年前 (2017-10-17) 3839浏览 0评论

版权申明:转载请注明出处。 文章来源:大数据随笔 1.压缩方式及实现类 hdfs上解压和压缩文件不像本地这么方便,所以写了一个工具。可以解压和压缩,使用的时候指定压缩或者解压使用的类就行。先列举一下hdfs各种压缩及解压方式的实现类: ...

Hadoop机架感知

Hadoop机架感知

liuxuecheng 2年前 (2017-07-08) 4625浏览 2评论

版权申明:转载请注明出处。 文章来源:大数据随笔 1.数据分块 HDFS作为Hadoop中的一个分布式文件系统,而且是专门为它的 MapReduce设计,所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外,还必须为MapReduc...

本地及MapReduce作业读取SquenceFile

本地及MapReduce作业读取SquenceFile

liuxuecheng 3年前 (2017-06-16) 2921浏览 0评论

版权申明:转载请注明出处。 文章来源:大数据随笔 1.SquenceFile简介 (1)SequenceFile是一个由二进制序列化过的key/value的字节流组成的存储文件。 (2)SequenceFile可通过fileWriter....

spark与hadoop的分布式文件缓存

spark与hadoop的分布式文件缓存

liuxuecheng 3年前 (2017-06-14) 2991浏览 0评论

版权申明:转载请注明出处。 文章来源:大数据随笔 1.简介 分布式计算框架中,各种配置文件、jar包、数据文件等都是通过分布式文件缓存进行下发的。这种方式将作业所需的资源文件下发到执行作业的各个节点上,作业执行过程中文件不再改动。 关于h...

Hadoop分布式缓存(DistributedCache)

Hadoop分布式缓存(DistributedCache)

liuxuecheng 3年前 (2017-01-11) 3493浏览 1评论

版权申明:转载请注明出处。 文章来源:大数据随笔 1.前言 DistributedCache是hadoop框架提供的一种机制,可以将job指定的文件,在job执行前,先行分发到task执行的机器上,并有相关机制对cache文件进行管理。 ...