用python + hadoop streaming 分布式编程（一） -- 原理介绍，样例程序

2020-02-23 05:32:59

字体：大中小

来源：转载

供稿：网友

MapReduce与HDFS简介
什么是Hadoop？

Google为自己的业务需要提出了编程模型MapReduce和分布式文件系统Google File System，并发布了相关论文（可在Google Research的网站上获得： GFS 、 MapReduce）。 Doug Cutting和Mike Cafarella在开发搜索引擎Nutch时对这两篇论文做了自己的实现，即同名的MapReduce和HDFS，合起来就是Hadoop。

MapReduce的Data flow如下图，原始数据经过mapper处理，再进行partition和sort，到达reducer，输出最后结果。

图片来自Hadoop: The Definitive Guide

Hadoop Streaming原理
Hadoop本身是用Java开发的，程序也需要用Java编写，但是通过Hadoop Streaming，我们可以使用任意语言来编写程序，让Hadoop运行。

Hadoop Streaming的相关源代码可以在Hadoop的Github repo 查看。简单来说，就是通过将用其他语言编写的mapper和reducer通过参数传给一个事先写好的Java程序（Hadoop自带的*-streaming.jar），这个Java程序会负责创建MR作业，另开一个进程来运行mapper，将得到的输入通过stdin传给它，再将mapper处理后输出到stdout的数据交给Hadoop，partition和sort之后，再另开进程运行reducer，同样地通过stdin/stdout得到最终结果。因此，我们只需要在其他语言编写的程序里，通过stdin接收数据，再将处理过的数据输出到stdout，Hadoop streaming就能通过这个Java的wrapper帮我们解决中间繁琐的步骤，运行分布式程序。

图片来自Hadoop: The Definitive Guide

原理上只要是能够处理stdio的语言都能用来写mapper和reducer，也可以指定mapper或reducer为Linux下的程序（如awk、grep、cat）或者按照一定格式写好的java class。因此，mapper和reducer也不必是同一类的程序。

Hadoop Streaming的优缺点

优点

可以使用自己喜欢的语言来编写MapReduce程序（换句话说，不必写Java XD）
不需要像写Java的MR程序那样import一大堆库，在代码里做一大堆配置，很多东西都抽象到了stdio上，代码量显著减少
因为没有库的依赖，调试方便，并且可以脱离Hadoop先在本地用管道模拟调试

缺点

只能通过命令行参数来控制MapReduce框架，不像Java的程序那样可以在代码里使用API，控制力比较弱，有些东西鞭长莫及
因为中间隔着一层处理，效率会比较慢
所以Hadoop Streaming比较适合做一些简单的任务，比如用python写只有一两百行的脚本。如果项目比较复杂，或者需要进行比较细致的优化，使用Streaming就容易出现一些束手束脚的地方。

用python编写简单的Hadoop Streaming程序

这里提供两个例子：

Michael Noll的word count程序

上一篇：Python Socket编程入门教程

下一篇：使用Python获取Linux系统的各种信息