服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

大数据教程基础,Spark简介与计算模型

日期: 来源:程序员小鸟收集编辑:数据

学习大数据,必然无法绕开spark。spark优势在于基于内存计算,速度很快,计算的中间结果也缓存在内存,同时spark也支持streaming流运算和sql运算

Mesos是资源管理框架,作为资源管理和任务调度,类似Hadoop中的Yran

Tachyon是分布式内存文件系统

Spark是核心计算引擎,能够将数据并行大规模计算

Spark Streaming是流式计算引擎,将每个数据切分成小块采用spark运算范式进行运算

Spark SQL是Spark的SQL ON Hadoop,能够用sql来对数据进行查询等功能

GraphX是图计算引擎

MLlib是机器学习库,提供聚类,分类以及推荐等基本的机器学习算法,并且社区中不断开发新的算法

Spark解决了哪些之前专有系统的局限性

重复开发,可能用使用storm来进行流式计算,有用别的框架进行机器学习

系统组合,不同系统之间数据需要约定格式

专有系统适用范围局限,storm适用于流计算,graphX适用于图计算

资源分配与管理,每个系统都有各自的资源管理,不方便协调

弹性分布式数据集RDD:分布式数组,将整个数据切分成不同的块,然后存到不同的节点通过一个统一的元数据RDD进行管理

partition,存储所有数据块的列表

compute函数,支持不同的RDD完成不同的运算(在不同节点上对这些数据块进行不同的运算)

dependencies维持每次RDD的顺序,比如一部分数据首先要进行去重,然后排序,分组,每次一运算数据都要用到上一次RDD的结果,这就需要dependencies来进行管理

partitioner,重新分区,

preferredLocations,优先读取本地数据

transformations,转换数据

编写程序实例:

进入spark官网,下载并解压spark程序包,此处用最新的:

解压之后在IDE中新建Scala项目,此处使用IntelliJ作为IDE:

new一个project并选择Scala,然后选择object:

讲Spark中jar文件下的jar包全部导入project:

编写如上代码运行,先建立连接spark实例,然后命名,之后选择地址,目前用本地环境

之后编写数据,用parallelize将数据写入RDD,然后可以开始统计count,或者take数据等操作

还可以在服务器上用spark-shell执行代码,还是先解压下载好的scala包,然后进入bin目录,执行./spark-shell,由于是内环境操作,不需要实例化链接,然后与上述操作一样:

有关大数据基础理论spark如果还有疑问,可以留言或私信问题。

相关阅读

  • 高新区考察团赴北京考察对接合作项目

  • 平报融媒记者高轶鹏 通讯员刘晓洁1月6日,高新区管委会副主任、二级调研员唐巍巍,区党工委委员、管委会副主任王学强带领区科技创新局相关负责同志组成考察团,先后到北京瀚中睿
  • 金价涨跌就看今晚!

  • 本文为中国黄金网原创文章,内容仅供参考之用,不构成操作建议或投资指南。2022年12月货币政策会议纪要公布后,美联储官员整体表示维持加息确有必要,并仍试图达成2%的通胀目标,最新
  • 临淄:乘“云”而上 跑出新动能加速度

  • 临淄融媒讯 8毫秒是什么概念呢?“我们在网上下载一个电影,原先进度圈需要转两圈,那可能现在你一眨眼就下载完毕。”12月15日,在山东爱特云翔信息技术有限公司大数据产业园,招商运

热门文章

  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 订单大涨!新马泰入境政策友好地获苏州人青睐

  • “看到每日增涨的咨询量和预定量,我们旅游人终于迎来春暖花开!”1月8日零时起,随着中国取消入境核酸检测和集中隔离等政策正式生效,出入境机票订单大涨,苏州中国国际旅行社副总经
  • 高血压糖尿病门诊用药保障的报销比例提高至70%

  • 大小新闻1月9日讯(YMG全媒体记者 孙长波 高少帅)在今日上午举行的2023年度首场新闻发布会上,市政协副主席、市发展改革委主任王松杰说,关于提振发展信心巩固向好态势的若干政策