版权申明:转载请注明出处。 文章来源:玄涧思库 1.scala中的变量 scala中的变量分为不可变变量和可变变量。不可变变量声明为 val a = 0 可变变量声明为 var a = 0 可以不用制定变量的类型,scala语言有强大的类型推断。当然,在必要的时候也可以指定类型,如 val a:String ="hello" 2.scala中的数据…
版权申明:转载请注明出处。 文章来源:玄涧思库 2.1条件表达式 (1)if表达式有返回值,如val result = if(x>0) 0 else -1 ,则result值可能为0或-1 (2)if表达式分支语句返回值的类型不一致时,则表达式返回值的类型是它们共同的父类型Any val result = if(x>0) 0 else "er…
版权申明:转载请注明出处。 文章来源:玄涧思库 3.1数组 (1) 定长数组(Array) //直接声明使用 val array = Array("a","b","c") //设置数组长度并赋值 val array = new Array[String](3) array(0) = "a" array(1) = "b" array(2) = "c"…
版权申明:转载请注明出处。 文章来源:玄涧思库 1.概述 数据准确性,稳定性,时效性是数据开发中需要重点关注的,一般称之为数据质量。保证数据质量往往会占用数据开发工程师的很多精力,所以一个好的数据监控系统或者一个合理的数据监控方案对于数据质量的保证至关重要。本文将展示一种实际生产中使用过的数据监控方案,并给出相关的代码。 数据计算采用spark,报…
版权申明:转载请注明出处。 文章来源:玄涧思库 1.什么是spark-streaming? 实际生产中会有许多应用到实时处理的场景,比如:实时监测页面点击,实时监测系统异常,实时监测来自于外部的攻击。针对这些场景,twitter研发了实时数据处理工具storm,并在后来开源。spark针对这些场景设计了spark-streaming实时计算模型,它…
版权申明:转载请注明出处。 文章来源:http://bigdataer.net 1.关于我 本人现在北京某大型互联网公司高级数据开发工程师一枚,三年工作经验,一年多面试官经验。 2.为啥要写这篇文章? 面试中经常会遇到这种情况:之前专心写web的Java码农突然转型想做大数据了,然后写几个大数据的项目经验跑来面试,结果就是一问三不知,还有好多人只是…
1.为什么要写这篇文章? 一是因为经常逛知乎,发现好些知乎大神的签名上都放的自己的微信公众号,但是关注之后就回一句简单的谢谢关注之类的话,缺乏互动性。二来是之前网盘共享了一堆本科生的毕设,为了防止别有用心的人拿去卖,加了密码,想要获取密码的话得加我微信验证。最近好多人都来加微信求密码,实在忙不过来,于是就想到了搞一个微信公众号的聊天机器人。于是乎借…
版权申明:转载请注明出处。 文章来源:玄涧思库 1.前言 DistributedCache是hadoop框架提供的一种机制,可以将job指定的文件,在job执行前,先行分发到task执行的机器上,并有相关机制对cache文件进行管理。 DistributedCache 可将具体应用相关的、大尺寸的、只读的文件有效地分布放置。DistributedC…