Hadoop是最流行的开源批处理大数据平台。它的核心技术有分布式的文件管理系统HDFS、基于键值对Key/Value Pair分布式并行计算模型MapReduce、数据结构化管理组件HBase、分布式的应用程序协调服务Zookeeper。
2、实时大数据平台SparkSpark源于UC Berkeley AMP Lab的大数据分析平台。它立足于内存计算,从多迭代批量处理出发,兼顾数据仓库、流处理和图计算等多种计算范式,是大数据系统领域的全栈计算平台。3、流式大数据平台Storm流数据处理思路是将连续的数据持久化,离散化,然后进行批量处理。Storm是随着实时大数据处理的需求而生的,就处理实时大数据的最实用工具之一。能轻松可靠地处理无界的数据流,像Hadoop批处理一样对数据进行实时处理。4、Python网络爬虫Python爬虫可以方便的安装NLTK工具包,方便对自然语言的处理;Python爬虫提供了Pillow、Tesseract等多种OCR库,用于图像识别和文字处理;Python爬虫提供了很多的方法,可以将数据存储在MySQL、MongoDB等多种数据存储中。5、大数据日志采集工具Flume及ScribeScribe是Facebook开源的日志收集系统,它为日志的分布式收集,统一处理提供一个可扩展的,高容错的简单方案。scribe的架构主要包括三部分,分别为scribe agent, scribe和存储系统。Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,目前已经是Apache的一个子项目。6、分布式消息订阅工具KafkaKafka是一个消息发布订阅系统,采用scala语言编写。Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到broker,Consumer使用pull模式从broker订阅并消费消息。7、NoSQL技术及云数据库NoSQL,全称是"Not Only Sql",指的是非关系型的数据库。这类数据库主要有这些特点:非关系型的、分布式的、开源的、水平可扩展的。原始的目的是为了大规模web应用。NoSQL 的拥护者们提倡运用非关系型的数据存储,通常的应用如:模式自由、支持简易复制、简单的API、最终的一致性(非ACID)、大容量数据等。最典型的七个NoSQL工具有PostgreSQL、Riak、Apache HBase、MongoDB、Apache CouchDB、Redis和Neo4J 。8、大数据中的类SQL工具Hive是一个构建在Hadoop上的数据仓库框架,可以将结构化的数据文件,映射为一张数据库表,并提供完整的sql查询功能,并转换为MapReduce任务进行运行。Spark SQL与传统DBMS的查询优化器+执行器的架构较为类似。9、大数据挖掘工具Mahout和MLlibMLlib是Spark对常用的数据挖掘算法的实现库,同时包括相关测试和数据生成器。Mahout 包含许多实现,包括集群、分类、CF 和进化程序。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。10、资源虚拟化工具DockerDocker是实现轻量级的操作系统虚拟化解决方案。Docker 的基础是 linux 容器(LXC)等技术。在 LXC 的基础上 Docker 进行了进一步的封装,让用户不需要去关心容器的管理,使得操作更为简便。作为一种新兴的虚拟化方式,Docker 跟传统的虚拟化方式相比具有众多的优势。首先,Docker 容器的启动可以在秒级实现,这相比传统的虚拟机方式要快得多。 其次,Docker 对系统资源的利用率很高,一台主机上可以同时运行数千个 Docker 容器。版权声明:每一篇文章都是作者的劳动所得,转载请注明出处!中科院计算所培训中心专注公开课和企业内训,设有大数据,军方软件,系统架构,软件需求分析,项目管理等高端课程。更多课程介绍可以加入我们的高端公开课交流群209943365,期待我们共同进步!新闻热点
疑难解答