spark not serializable异常分析及解决方案
liuxuecheng 2年前 (2018-01-31) 19478浏览 0评论
1.背景 在使用spark开发分布式数据计算作业过程中或多或少会遇到如下的错误: Serialization stack: object not serializable (class:class: org.apache.hadoop.h...
spark
liuxuecheng 2年前 (2018-01-31) 19478浏览 0评论
1.背景 在使用spark开发分布式数据计算作业过程中或多或少会遇到如下的错误: Serialization stack: object not serializable (class:class: org.apache.hadoop.h...
liuxuecheng 2年前 (2017-07-11) 11426浏览 2评论
版权申明:转载请注明出处。 文章来源:大数据随笔 1.spark作业配置的三种方式 读取指定配置文件,默认为conf/spark-defaults.conf。 在程序中的SparkConf中指定,如conf.setAppName(...
liuxuecheng 3年前 (2017-06-14) 2991浏览 0评论
版权申明:转载请注明出处。 文章来源:大数据随笔 1.简介 分布式计算框架中,各种配置文件、jar包、数据文件等都是通过分布式文件缓存进行下发的。这种方式将作业所需的资源文件下发到执行作业的各个节点上,作业执行过程中文件不再改动。 关于h...
liuxuecheng 3年前 (2017-06-08) 4243浏览 2评论
版权申明:转载请注明出处。 文章来源:bigdataer.net 1.什么是spark-streaming? 实际生产中会有许多应用到实时处理的场景,比如:实时监测页面点击,实时监测系统异常,实时监测来自于外部的攻击。针对这些场景,twi...
liuxuecheng 3年前 (2017-03-13) 2236浏览 0评论
版权申明:转载请注明出处。 文章来源:大数据随笔 1.概述 数据准确性,稳定性,时效性是数据开发中需要重点关注的,一般称之为数据质量。保证数据质量往往会占用数据开发工程师的很多精力,所以一个好的数据监控系统或者一个合理的数据监控方案对于数...
liuxuecheng 3年前 (2017-03-13) 3362浏览 2评论
版权申明:转载请注明出处。 文章来源:大数据随笔 1.什么是spark-streaming? 实际生产中会有许多应用到实时处理的场景,比如:实时监测页面点击,实时监测系统异常,实时监测来自于外部的攻击。针对这些场景,twitter研发了实...