当前位置:首页 > 芯闻号 > 充电吧
[导读]什么样的程序执行效率高?程序的数据和指令都在cache中,没有cache miss出现。所以如何让并行程序性能高基本可以演变成 如何减少cache miss?尤其是多核下,并行程序cache的问题已经

什么样的程序执行效率高?

程序的数据和指令都在cache中,没有cache miss出现。

所以如何让并行程序性能高基本可以演变成 如何减少cache miss?

尤其是多核下,并行程序cache的问题已经无法回避了,否则并行的效率还没有一个线程高。
写程序的时候MESI协议要时刻浮现在眼前。

借用一句歌词:现在不是从前了,兔子比狐狸狡猾了。

1.绞尽所有的脑汁,避免使用全局变量,尤其是程序运行过程中可能修改的变量。所有线程只读的变量可以放松一丁点儿要求。

2.per thread per core。每个core运行一个线程,每个线程运行在一个cpu core上。

3.Keep data structures  per core。每个core仅仅修改自己的数据结构。

4.Keep data structures cache alignment。保证结构体定义的时候cache line对齐。可以自己添加pad,也可以用gcc提供的__attribute__。

5.避免false sharing。定义数据结构的时候不能这么搞: int num[CPU_NUMS],这样在for循环中对num[i]++的时候就会造成false sharing。这也是为什么结构体定义要cache line对齐。

6. Lock-free data structures。锁的代价是巨大的,搞不好还会死锁,多核间通信用lock-free fifo。

7.cpu affinity。线程创建后立即绑定到具体的core上,然后再 进行分配内存,保证内存分配在自己的领土这边。

8.分支预测。使用gcc提供的likely和unlikely。

9.公共子表达式消除。一个函数中如果多次用到同一个表达式,可以开始的时候定义一个指针。

10.循环中消除指针引用。比如下面这样:
for(i=0; i< 1000; i++)
{
    *dest++;
}
可以先定义一个局部变量进行累加,最后再把局部变量赋值给指针。

11.X86平台intel提供了很多的sse指令,尤其是在字符串的搜索和查找方面。

12.多用perf tool。

暂时想到的先记录下来,找个时间给出具体的代码逐条举例说明一下。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

随着 C 项目的持续扩大,编译效率越来越是一个问题了。想一想你每天花在这上面的时间,再乘以团队成员的个数,是不是成本很高?

关键字: C 源码 多核 编译

自从1995年PowerVR 3D GPU技术出现以来,Imagination一直是GPU IP这一领域的主要玩家。目前Imagination在移动GPU IP市场占有率达到了36%,与高通和Arm三分天下;而在汽车GP...

关键字: imagination GPU 多核

目前,一些2019款的苹果Mac Pro在Geekbench网站的跑分曝光,使我们对Mac Pro相对于其他苹果机器的性能有一个大概了解。根据目前公布的分数可以看到,8核,12核和16核2019款苹果Mac Pro处理...

关键字: mac pro 多核

据网站爆料,摩托罗拉新机One Action将搭载Exynos 9609处理器;采用4GB内存,搭载Android 9 Pie系统。近日,摩托罗拉新机One Action跑分已曝光:搭载Exynos 9609,单核160...

关键字: 多核 联想

5月30日消息 昨日,华为一款型号为HUAWEI GLK-LX3的新机现身GeekBench跑分网站。从跑分情况来看,该机应该是华为的一款中端机型。根据之前的爆料,该机应该是华为nova 5i,3C认证显示,华为nova...

关键字: 华为 华为nova 多核 摄像头

5月20日消息 据外媒爆料,关于红米新机Redmi Note 7S的跑分已经曝光:单核1637,多核5384,在性能上要比骁龙653还有20%的提升。

关键字: 单核 多核 红米
关闭
关闭