TensorFlow学习之分布式的TensorFlow运行环境

2020-02-15 21:23:19

字体：大中小

来源：转载

供稿：网友

当我们在大型的数据集上面进行深度学习的训练时，往往需要大量的运行资源，而且还要花费大量时间才能完成训练。

1.分布式TensorFlow的角色与原理

在分布式的TensorFlow中的角色分配如下：

PS：作为分布式训练的服务端，等待各个终端(supervisors)来连接。

worker：在TensorFlow的代码注释中被称为终端(supervisors)，作为分布式训练的计算资源终端。

chief supervisors：在众多的运算终端中必须选择一个作为主要的运算终端。该终端在运算终端中最先启动，它的功能是合并各个终端运算后的学习参数，将其保存或者载入。

每个具体的网络标识都是唯一的，即分布在不同IP的机器上(或者同一个机器的不同端口)。在实际的运行中，各个角色的网络构建部分代码必须100%的相同。三者的分工如下：

服务端作为一个多方协调者，等待各个运算终端来连接。

chief supervisors会在启动时同一管理全局的学习参数，进行初始化或者从模型载入。

其他的运算终端只是负责得到其对应的任务并进行计算，并不会保存检查点，用于TensorBoard可视化中的summary日志等任何参数信息。

在整个过程都是通过RPC协议来进行通信的。

2.分布部署TensorFlow的具体方法

配置过程中，首先建立一个server，在server中会将ps及所有worker的IP端口准备好。接着，使用tf.train.Supervisor中的managed_ssion来管理一个打开的session。session中只是负责运算，而通信协调的事情就都交给supervisor来管理了。

3.部署训练实例

下面开始实现一个分布式训练的网络模型，以线性回归为例，通过3个端口来建立3个终端，分别是一个ps，两个worker，实现TensorFlow的分布式运算。

1. 为每个角色添加IP地址和端口，创建sever，在一台机器上开3个不同的端口，分别代表PS，chief supervisor和worker。角色的名称用strjob_name表示，以ps为例，代码如下：

# 定义IP和端口strps_hosts = 'localhost:1681'strworker_hosts = 'localhost:1682,localhost:1683'# 定义角色名称strjob_name = 'ps'task_index = 0# 将字符串转数组ps_hosts = strps_hosts.split(',')worker_hosts = strps_hosts.split(',')cluster_spec = tf.train.ClusterSpec({'ps': ps_hosts, 'worker': worker_hosts})# 创建serverserver = tf.train.Server({'ps':ps_hosts, 'worker':worker_hosts}, job_name=strjob_name, task_index=task_index)

2为ps角色添加等待函数

ps角色使用server.join函数进行线程挂起，开始接受连续消息。

# ps角色使用join进行等待if strjob_name == 'ps':  print("wait")  server.join()

3.创建网络的结构

与正常的程序不同，在创建网络结构时，使用tf.device函数将全部的节点都放在当前任务下。在tf.device函数中的任务是通过tf.train.replica_device_setter来指定的。在tf.train.replica_device_setter中使用worker_device来定义具体任务名称；使用cluster的配置来指定角色及对应的IP地址，从而实现管理整个任务下的图节点。代码如下：

上一篇：TensorFlow MNIST手写数据集的实现方法

下一篇：Python 3.8 新功能大揭秘【新手必学】