Maven打包生成source.jar和Javadoc包
liuxuecheng 4年前 (2018-10-25) 5328浏览 1评论
生成jar、source-jar、和doc-jar的三个maven插件 <build> <plugins> <plugin> <groupId>org.a...
liuxuecheng 4年前 (2018-10-25) 5328浏览 1评论
生成jar、source-jar、和doc-jar的三个maven插件 <build> <plugins> <plugin> <groupId>org.a...
liuxuecheng 4年前 (2018-10-16) 7541浏览 0评论
1.背景 需求是使用sqoop导出HDFS上的数据到MySQL,理论上来说是个很简单的需求,写了个如下的sqoop脚本: sqoop export \ --connect jdbc:mysql://host:port/db \ --username ...
liuxuecheng 4年前 (2018-07-26) 13390浏览 0评论
1.背景 使用hive的动态分区(dynamic partition)时,如果最终生成的分区数比较多,会出现jvm直接内存(direct buffer memory)溢出的情况,导致分区作业失败。假如有一张订单表t_order_tmp,里面有个字段c...
liuxuecheng 4年前 (2018-07-19) 8581浏览 4评论
1.背景 当前业务使用TextFile存储日志,每天增量5T左右,集群存储空间有限,且使用TextFile日志的扩展性非常差,因此想到使用protocol buffer序列化数据,后续传输及处理使用二进制。百度+google了一圈发现没有现成案例,所...
liuxuecheng 4年前 (2018-07-19) 4913浏览 0评论
在本地安装hadoop可以很方便的连接eclipse等工具调试hadoop源码或者是自己写的yarn应用,下面讲一下如何安装。 1.下载文件 (1)下载hadoop,建议2.x版本(这里使用的是hadoop2.5.2)并解压到本地目录。 (2)下载h...
liuxuecheng 4年前 (2018-07-18) 9401浏览 0评论
1.简介 Avro是一个数据序列化系统,它有以下特性: (1)丰富的数据结构。 (2)一种紧凑、快速的二进制文件格式。 (3)存放持久化数据的容器文件。 (4)远程过程调用。 (5)支持动态语言、使用schema生成代码。 2.引入pom 在加入以下...
liuxuecheng 4年前 (2018-07-14) 7057浏览 0评论
log4j2 是log4j的升级版,在功能和性能上都有很大的提升。 1.常用组件 1.1 Appenders Appender负责将LogEvents传递到目的地。 每个Appender都必须实现Appender接口。 大多数Appender继承自A...
liuxuecheng 4年前 (2018-06-29) 6116浏览 0评论
1.flume安装与配置 (1)官网下载:http://flume.apache.org/download.html 并解压到自己的目录 (2) 配置环境变量: 新建FLUME_HOME,变量值为flume的安装目录。 编辑系统变量p...
liuxuecheng 4年前 (2018-06-29) 3482浏览 0评论
总结一下有关两个指针的算法题。这里的指针起游标的作用,一般用在处理字符串或者数组的相关问题上。有两个指针从头尾向中间移动,也有从头到尾一前一后一起移动。 1.求一个字符串的最大不重复子串的长度 一种接近暴力求解的方法就是遍历所有可能的子串组合,然后找...
liuxuecheng 4年前 (2018-05-10) 4563浏览 0评论
这篇文章总结一下LeetCode上各种形式的两数相加,有两个链表相加、字符串模拟二进制数相加、不使用运算符号的相加等。 1.两个单链表相加,返回一个单链表 Input: (2 -> 4 -> 3) + (5 -> 6 -> 4) Outpu...