首页 > 学院 > 开发设计 > 正文

跟天齐老师学Spark(1)--Spark简介

2019-11-11 05:21:50
字体:
来源:转载
供稿:网友
spark官网:http://spark.apache.orgSpark其实是一个大数据计算引擎,只能解决计算的问题,它需要依赖数据的存储系统;Spark不会取代Hadoop,因为Hadoop不仅是解决了计算的问题,它还解决了存储的问题;spark是apache旗下的一个开源框架。它的logo:快如闪电的一个集群。用来做大规模的数据计算处理。在2016年7月出来spark-2.0版本,我们现在使用的是1.6.2版本;Spark比hadoop的MaPReduce在内存中快100倍,即使在磁盘上也比Hadoop快10倍。在Spark的计算引擎之上有很多强大的工具:spark sql,spark streaming,mllib,graphx。提供一站式计算服务(离线计算、实时计算、机器学习、图计算等)。这些都是它的子项目,但是他们都是运行在spark的计算引擎之上。有了spark的话,我们只要一个spark集群即可。如果用hadoop的话,要维护hadoop集群,可能还要维护storm集群。但是如果你的公司搞了2年hadoop相关的技术了,现在突然转向spark的话,可能转化的成本比较高。如果你的公司刚开始起步,可以优先选择spark技术。它的特点:快,易用(java,scala,python,R),通用,运行在多平台(可以运行在yarn这个资源调度平台上,可以从hdfs中读数据,再写入hdfs,还可以运行在mesos资源调度平台上,spark还可以运行在自己独立的集群模式上,这就是standalone集群模式,spark还可以运行在云上,可以从hdfs中读数据,从hbase中读数据,从cassandra中读数据,还可以跑在S3上)对spark贡献排名第一的是一个华人(美国伯克利大学)。还有很多的国人面孔。
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表