【Python】学习笔记——-21、异步IO

2019-11-06 07:41:31

字体：大中小

来源：转载

供稿：网友

在IO编程一节中，我们已经知道，CPU的速度远远快于磁盘、网络等IO。在一个线程中，CPU执行代码的速度极快，然而，一旦遇到IO操作，如读写文件、发送网络数据时，就需要等待IO操作完成，才能继续进行下一步操作。这种情况称为同步IO。

在IO操作的过程中，当前线程被挂起，而其他需要CPU执行的代码就无法被当前线程执行了。

因为一个IO操作就阻塞了当前线程，导致其他代码无法执行，所以我们必须使用多线程或者多进程来并发执行代码，为多个用户服务。每个用户都会分配一个线程，如果遇到IO导致线程被挂起，其他用户的线程不受影响。

多线程和多进程的模型虽然解决了并发问题，但是系统不能无上限地增加线程。由于系统切换线程的开销也很大，所以，一旦线程数量过多，CPU的时间就花在线程切换上了，真正运行代码的时间就少了，结果导致性能严重下降。

由于我们要解决的问题是CPU高速执行能力和IO设备的龟速严重不匹配，多线程和多进程只是解决这一问题的一种方法。

另一种解决IO问题的方法是异步IO。当代码需要执行一个耗时的IO操作时，它只发出IO指令，并不等待IO结果，然后就去执行其他代码了。一段时间后，当IO返回结果时，再通知CPU进行处理。

可以想象如果按普通顺序写出的代码实际上是没法完成异步IO的：

do_some_code()f = open('/path/to/file', 'r')r = f.read() # <== 线程停在此处等待IO操作结果# IO操作完成后线程才能继续执行:do_some_code(r)所以，同步IO模型的代码是无法实现异步IO模型的。
异步IO模型需要一个消息循环，在消息循环中，主线程不断地重复“读取消息-处理消息”这一过程：
loop = get_event_loop()while True:    event = loop.get_event()    PRocess_event(event)消息模型其实早在应用在桌面应用程序中了。一个GUI程序的主线程就负责不停地读取消息并处理消息。所有的键盘、鼠标等消息都被发送到GUI程序的消息队列中，然后由GUI程序的主线程处理。
由于GUI线程处理键盘、鼠标等消息的速度非常快，所以用户感觉不到延迟。某些时候，GUI线程在一个消息处理的过程中遇到问题导致一次消息处理时间过长，此时，用户会感觉到整个GUI程序停止响应了，敲键盘、点鼠标都没有反应。这种情况说明在消息模型中，处理一个消息必须非常迅速，否则，主线程将无法及时处理消息队列中的其他消息，导致程序看上去停止响应。
消息模型是如何解决同步IO必须等待IO操作这一问题的呢？当遇到IO操作时，代码只负责发出IO请求，不等待IO结果，然后直接结束本轮消息处理，进入下一轮消息处理过程。当IO操作完成后，将收到一条“IO完成”的消息，处理该消息时就可以直接获取IO操作结果。
在“发出IO请求”到收到“IO完成”的这段时间里，同步IO模型下，主线程只能挂起，但异步IO模型下，主线程并没有休息，而是在消息循环中继续处理其他消息。这样，在异步IO模型下，一个线程就可以同时处理多个IO请求，并且没有切换线程的操作。对于大多数IO密集型的应用程序，使用异步IO将大大提升系统的多任务处理能力。
一、协程
在学习异步IO模型前，我们先来了解协程。
协程，又称微线程，纤程。英文名Coroutine。
协程的概念很早就提出来了，但直到最近几年才在某些语言（如Lua）中得到广泛应用。
子程序，或者称为函数，在所有语言中都是层级调用，比如A调用B，B在执行过程中又调用了C，C执行完毕返回，B执行完毕返回，最后是A执行完毕。
所以子程序调用是通过栈实现的，一个线程就是执行一个子程序。
子程序调用总是一个入口，一次返回，调用顺序是明确的。而协程的调用和子程序不同。
协程看上去也是子程序，但执行过程中，在子程序内部可中断，然后转而执行别的子程序，在适当的时候再返回来接着执行。
注意，在一个子程序中中断，去执行其他子程序，不是函数调用，有点类似CPU的中断。比如子程序A、B：
def A():    print('1')    print('2')    print('3')def B():    print('x')    print('y')    print('z')假设由协程执行，在执行A的过程中，可以随时中断，去执行B，B也可能在执行过程中中断再去执行A，结果可能是：
12xy3z但是在A中是没有调用B的，所以协程的调用比函数调用理解起来要难一些。
看起来A、B的执行有点像多线程，但协程的特点在于是一个线程执行，那和多线程比，协程有何优势？
最大的优势就是协程极高的执行效率。因为子程序切换不是线程切换，而是由程序自身控制，因此，没有线程切换的开销，和多线程比，线程数量越多，协程的性能优势就越明显。
第二大优势就是不需要多线程的锁机制，因为只有一个线程，也不存在同时写变量冲突，在协程中控制共享资源不加锁，只需要判断状态就好了，所以执行效率比多线程高很多。
因为协程是一个线程执行，那怎么利用多核CPU呢？最简单的方法是多进程+协程，既充分利用多核，又充分发挥协程的高效率，可获得极高的性能。
Python对协程的支持是通过generator实现的。
在generator中，我们不但可以通过for循环来迭代，还可以不断调用next()函数获取由yield语句返回的下一个值。
但是Python的yield不但可以返回一个值，它还可以接收调用者发出的参数。
来看例子：
传统的生产者-消费者模型是一个线程写消息，一个线程取消息，通过锁机制控制队列和等待，但一不小心就可能死锁。
如果改用协程，生产者生产消息后，直接通过yield跳转到消费者开始执行，待消费者执行完毕后，切换回生产者继续生产，效率极高：
def consumer():    r = ''    while True:        n = yield r        if not n:            return        print('[CONSUMER] Consuming %s...' % n)        r = '200 OK'def produce(c):    c.send(None)    n = 0    while n < 5:        n = n + 1        print('[PRODUCER] Producing %s...' % n)        r = c.send(n)        print('[PRODUCER] Consumer return: %s' % r)    c.close()c = consumer()produce(c)执行结果：
[PRODUCER] Producing 1...[CONSUMER] Consuming 1...[PRODUCER] Consumer return: 200 OK[PRODUCER] Producing 2...[CONSUMER] Consuming 2...[PRODUCER] Consumer return: 200 OK[PRODUCER] Producing 3...[CONSUMER] Consuming 3...[PRODUCER] Consumer return: 200 OK[PRODUCER] Producing 4...[CONSUMER] Consuming 4...[PRODUCER] Consumer return: 200 OK[PRODUCER] Producing 5...[CONSUMER] Consuming 5...[PRODUCER] Consumer return: 200 OK注意到consumer函数是一个generator，把一个consumer传入produce后：
首先调用c.send(None)启动生成器；
然后，一旦生产了东西，通过c.send(n)切换到consumer执行；
consumer通过yield拿到消息，处理，又通过yield把结果传回；
produce拿到consumer处理的结果，继续生产下一条消息；
produce决定不生产了，通过c.close()关闭consumer，整个过程结束。
整个流程无锁，由一个线程执行，produce和consumer协作完成任务，所以称为“协程”，而非线程的抢占式多任务。
最后套用Donald Knuth的一句话总结协程的特点：
“子程序就是协程的一种特例。”
二、asyncio
asyncio是Python 3.4版本引入的标准库，直接内置了对异步IO的支持。
asyncio的编程模型就是一个消息循环。我们从asyncio模块中直接获取一个EventLoop的引用，然后把需要执行的协程扔到EventLoop中执行，就实现了异步IO。
用asyncio实现Hello world代码如下：
import asyncio@asyncio.coroutinedef hello():    print("Hello world!")    # 异步调用asyncio.sleep(1):    r = yield from asyncio.sleep(1)    print("Hello again!")# 获取EventLoop:loop = asyncio.get_event_loop()# 执行coroutineloop.run_until_complete(hello())loop.close()@asyncio.coroutine把一个generator标记为coroutine类型，然后，我们就把这个coroutine扔到EventLoop中执行。
hello()会首先打印出Hello world!，然后，yield from语法可以让我们方便地调用另一个generator。由于asyncio.sleep()也是一个coroutine，所以线程不会等待asyncio.sleep()，而是直接中断并执行下一个消息循环。当asyncio.sleep()返回时，线程就可以从yield from拿到返回值（此处是None），然后接着执行下一行语句。
把asyncio.sleep(1)看成是一个耗时1秒的IO操作，在此期间，主线程并未等待，而是去执行EventLoop中其他可以执行的coroutine了，因此可以实现并发执行。
我们用Task封装两个coroutine试试：
import threadingimport asyncio@asyncio.coroutinedef hello():    print('Hello world! (%s)' % threading.currentThread())    yield from asyncio.sleep(1)    print('Hello again! (%s)' % threading.currentThread())loop = asyncio.get_event_loop()tasks = [hello(), hello()]loop.run_until_complete(asyncio.wait(tasks))loop.close()观察执行过程：
Hello world! (<_MainThread(MainThread, started 140735195337472)>)Hello world! (<_MainThread(MainThread, started 140735195337472)>)(暂停约1秒)Hello again! (<_MainThread(MainThread, started 140735195337472)>)Hello again! (<_MainThread(MainThread, started 140735195337472)>)由打印的当前线程名称可以看出，两个coroutine是由同一个线程并发执行的。
如果把asyncio.sleep()换成真正的IO操作，则多个coroutine就可以由一个线程并发执行。
我们用asyncio的异步网络连接来获取sina、sohu和163的网站首页：
import asyncio@asyncio.coroutinedef wget(host):    print('wget %s...' % host)    connect = asyncio.open_connection(host, 80)    reader, writer = yield from connect    header = 'GET / HTTP/1.0/r/nHost: %s/r/n/r/n' % host    writer.write(header.encode('utf-8'))    yield from writer.drain()    while True:        line = yield from reader.readline()        if line == b'/r/n':            break        print('%s header > %s' % (host, line.decode('utf-8').rstrip()))    # Ignore the body, close the socket    writer.close()loop = asyncio.get_event_loop()tasks = [wget(host) for host in ['www.sina.com.cn', 'www.sohu.com', 'www.163.com']]loop.run_until_complete(asyncio.wait(tasks))loop.close()执行结果如下：
wget www.sohu.com...wget www.sina.com.cn...wget www.163.com...(等待一段时间)(打印出sohu的header)www.sohu.com header > HTTP/1.1 200 OKwww.sohu.com header > Content-Type: text/html...(打印出sina的header)www.sina.com.cn header > HTTP/1.1 200 OKwww.sina.com.cn header > Date: Wed, 20 May 2015 04:56:33 GMT...(打印出163的header)www.163.com header > HTTP/1.0 302 Moved Temporarilywww.163.com header > Server: Cdn Cache Server V2.0...可见3个连接由一个线程通过coroutine并发完成。
小结
asyncio提供了完善的异步IO支持；
异步操作需要在coroutine中通过yield from完成；
多个coroutine可以封装成一组Task然后并发执行。
三、async/await
用asyncio提供的@asyncio.coroutine可以把一个generator标记为coroutine类型，然后在coroutine内部用yield from调用另一个coroutine实现异步操作。
为了简化并更好地标识异步IO，从Python 3.5开始引入了新的语法async和await，可以让coroutine的代码更简洁易读。
请注意，async和await是针对coroutine的新语法，要使用新的语法，只需要做两步简单的替换：
把@asyncio.coroutine替换为async；把yield from替换为await。让我们对比一下上一节的代码：
@asyncio.coroutinedef hello():    print("Hello world!")    r = yield from asyncio.sleep(1)    print("Hello again!")用新语法重新编写如下：
async def hello():    print("Hello world!")    r = await asyncio.sleep(1)    print("Hello again!")剩下的代码保持不变。
小结
Python从3.5版本开始为asyncio提供了async和await的新语法；
注意新语法只能用在Python 3.5以及后续版本，如果使用3.4版本，则仍需使用上一节的方案。
四、aiohttp
asyncio可以实现单线程并发IO操作。如果仅用在客户端，发挥的威力不大。如果把asyncio用在服务器端，例如Web服务器，由于HTTP连接就是IO操作，因此可以用单线程+coroutine实现多用户的高并发支持。
asyncio实现了TCP、UDP、SSL等协议，aiohttp则是基于asyncio实现的HTTP框架。
我们先安装aiohttp：
pip install aiohttp然后编写一个HTTP服务器，分别处理以下URL：
/ - 首页返回b'<h1>Index</h1>'；
/hello/{name} - 根据URL参数返回文本hello, %s!。
代码如下：
import asynciofrom aiohttp import webasync def index(request):    await asyncio.sleep(0.5)    return web.Response(body=b'<h1>Index</h1>')async def hello(request):    await asyncio.sleep(0.5)    text = '<h1>hello, %s!</h1>' % request.match_info['name']    return web.Response(body=text.encode('utf-8'))async def init(loop):    app = web.application(loop=loop)    app.router.add_route('GET', '/', index)    app.router.add_route('GET', '/hello/{name}', hello)    srv = await loop.create_server(app.make_handler(), '127.0.0.1', 8000)    print('Server started at http://127.0.0.1:8000...')    return srvloop = asyncio.get_event_loop()loop.run_until_complete(init(loop))loop.run_forever()注意aiohttp的初始化函数init()也是一个coroutine，loop.create_server()则利用asyncio创建TCP服务。








上一篇：python CGI环境搭建


下一篇：笨方法学python--习题31---做出决定。














发表评论
共有条评论






用户名:

密码:



验证码:

 

匿名发表


















学习交流
更多





索泰发布一款GTX 1070 Mini迷


AMD新旗舰显卡轻松干翻NVIDIA 






索泰发布一款GTX 1070 Mini迷你版本:小机
索泰发布一款GTX 1070 Mini迷你版本:小机箱大爱...






usb无线网卡怎么用,小编告诉你安装教程09-10

usb调试在哪,小编告诉你usb调试在哪09-10

优盘不显示,小编告诉你优盘不显示怎么办09-10

低级格式化,小编告诉你硬盘怎么低级格式化09-10




帝国cms分类信息的所在地在的修改09-08

将网站地图和友情链接table样式改为div+css09-08

用帝国cms实现不规则新闻或信息调用（应大站09-08

帝国调用DZ论坛精华帖09-08

用灵动标签调用discuz和phpwind的最新贴子09-08







热门图片
更多




芭蕾舞蹈表演，真实美到极致


下午茶时间，悠然自得的休憩




充斥这繁华奢靡气息的城市迪拜风景图片


从山间到田野再到大海美丽的自然风景图片




肉食主义者的最爱美食烤肉图片


夏日甜心草莓美食图片




人逢知己千杯少，喝酒搞笑图集


搞笑试卷，学生恶搞答题







猜你喜欢的新闻


荣耀总裁赵明乌镇演讲：荣耀首款5G手机V30下

搜狐张朝阳：回归媒体是搜狐重新崛起的关键

华为轮值董事长郭平：虚拟技术创造现实价值

第六届世界互联网大会开幕“to B”端成热门

滴滴英文服务上线两周年 用户已超200万

华为推出全球至快AI训练集群Atlas900

马斯克：特斯拉正组建中国技术团队

10年后6G将问世 速度有望比5G快100倍

WeworkCEO称已开始考虑未来职位 不排除放弃

谷歌软件商店模式变革：推出5美元会员 可用数





猜你喜欢的关注


用Python处理"大"XLS文件

python优雅实现策略模式

Python之Series 学习

Python中sorted函数的用法

python参数传递方式

python之pandas学习

python中datetime模块中strftime/strptime

学习记录：python糗百爬虫

Python中关键字yield有什么作用?

用Python处理"大"XLS文件











新闻热点





荣耀总裁赵明乌镇演讲：荣耀首款5G手机V30下月发布
2019-10-23 09:17:05






搜狐张朝阳：回归媒体是搜狐重新崛起的关键
2019-10-21 09:20:02






华为轮值董事长郭平：虚拟技术创造现实价值
2019-10-21 09:00:12






滴滴英文服务上线两周年 用户已超200万
2019-09-26 08:57:12






华为推出全球至快AI训练集群Atlas900
2019-09-25 08:46:36






马斯克：特斯拉正组建中国技术团队
2019-09-25 08:15:43











疑难解答




索泰发布一款GTX 1070 Mini迷你版本:小机箱

AMD新旗舰显卡轻松干翻NVIDIA 有几个点我们

i5 6500配什么显卡最佳？i5 6500配1060显卡可

AMD新一批显卡曝光:更便宜的14nm北极星

A卡自修改BIOS安装16.12.1 ReLive驱动教程 

2016笔记本显卡性能哪个好？笔记本显卡天梯图

2016显卡性能怎么看好坏 显卡天梯图2016年1

PS4 Pro显卡解析:显存带宽相当于标准版PS4

iGame 1050烈焰战神U-2GD5版图赏版:最美非

EVGA FTW GTX 1080/1070显卡存在严重问题:







图片精选




python 几种常用测试框架



python 几种常用测试框架



python 几种常用测试框架



python 几种常用测试框架











网友关注




u盘无法识别怎么办,小编告诉你U盘无法识别怎

usb无线网卡怎么用,小编告诉你安装教程

usb调试在哪,小编告诉你usb调试在哪

优盘不显示,小编告诉你优盘不显示怎么办

低级格式化,小编告诉你硬盘怎么低级格式化

分区表丢失,小编告诉你分区表丢失如何修复

进入bios,小编告诉你戴尔笔记本进入bios设置u

怎么刷bios,小编告诉你华硕怎么刷bios

读卡器怎么用,小编告诉你如何使用读卡器

bios升级,小编告诉你华硕主板bios怎么升级