首页 > 学院 > 开发设计 > 正文

Multicore Programming OpenMP: Part 2

2019-11-14 12:07:32

字体：大中小

来源：转载

供稿：网友

CPU无法达到peak performance的原因矩阵乘法的讨论介绍理论基础块状矩阵计算优化技巧代价模型strength reduction内联函数inline f循环展开loop unrolling去掉下标计算sub-exPRession eliminate查表look up table合并循环减少条件判断

转载请注明出处：http://blog.csdn.net/c602273091/article/details/54851077

上一节说到的是OpenMP的写法，这一次主要是介绍代码优化。

CPU无法达到peak performance的原因

这里写图片描述本来CPU的性能应该如上图所示的，但是实际使用的时候并没有达到这个效果。

主要是因为：

存储器的层次设计。发生cache、TLB miss的时候，就需要等待很多个周期；

流水线、ILP等等并行设计有缺陷，使得吞吐量无法达到预期；

有的操作比如存储操作看似不需要浪费周期，其实数据传输等等会浪费不少周期。

矩阵乘法的讨论

介绍

这里写图片描述原始的矩阵乘法就如上图的实现。

但是使用加速之后效果怎么样呢？ATLAS做加速的效果远远超过了三个循环的矩阵计算。这里写图片描述

理论基础

在这里需要介绍一些存储器方面的知识。

这里写图片描述矩阵存储分为行优先和列优先的。行列优先的不同使得每次存入cache的一行是列方向或者是行方向。

现在解构一下取数据的关系：这里写图片描述

对存储数组A、B、C计算读取次数。这里写图片描述

块状矩阵计算

使用块状计算矩阵，如下图。那么之前计算矩阵就改成了四个循环。这里写图片描述

想对这块更了解，可以看我之前写的18-600里cache的介绍。想直观看这个算法，可以看：这里写图片描述

优化技巧

代价模型

计算代价的部分如下图：（左边是具体每部分、右边是具体例子）这里写图片描述

计算一开始的代价：19n 这里写图片描述

去掉结构体，去掉了索引这个步骤：6n 这里写图片描述

改变循环体内部可以移出的操作：5n 这里写图片描述

使用循环展开：3.5n 这里写图片描述

strength reduction

减少需要浪费很多资源的操作，比如去掉除法、log等等或者替换成别的操作。这里写图片描述

内联函数（inline f）

这里写图片描述减少函数调用，把简单函数改成内联函数。

循环展开（loop unrolling）

这里写图片描述这里主要是涉及CPU在取内存中数据到寄存器的时候，循环展开可以减少CPU周期。

去掉下标计算（sub-expression eliminate）

这里写图片描述有时候计算循环中的下表很浪费CPU周期，一部分放到循环外就可以加快速度。

查表（look up table）

这里写图片描述提前计算好要用到的一些数据，尤其减少循环多次计算的浪费。这个做法和暴力破解很像。

合并循环

这里写图片描述减少循环次数，可以减少不少计数器的操作。

减少条件判断

减少循环中的条件判断，如果你提前知道哪个是需要跳过的。这里写图片描述

上一篇：LeetCode 128. Longest Consecutive Sequence

下一篇：(函数题)4-9 统计个位数字

学习交流

索泰发布一款GTX 1070 Mini迷你版本:小机

索泰发布一款GTX 1070 Mini迷你版本:小机箱大爱...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

荣耀总裁赵明乌镇演讲：荣耀首款5G手机V30下月发布

2019-10-23 09:17:05

搜狐张朝阳：回归媒体是搜狐重新崛起的关键

2019-10-21 09:20:02

华为轮值董事长郭平：虚拟技术创造现实价值

2019-10-21 09:00:12

滴滴英文服务上线两周年用户已超200万

2019-09-26 08:57:12

华为推出全球至快AI训练集群Atlas900

2019-09-25 08:46:36

马斯克：特斯拉正组建中国技术团队

2019-09-25 08:15:43

疑难解答

图片精选

网友关注