原文:https://www.zhihu.com/question/28571059?sort=created
以前也觉得 Eigen 很快,感觉和 mkl 可以媲美。但是昨天 debug 时一行一行看时间,发现这样一个矩阵乘法
要算将近一秒(
),而同样的计算用 MATLAB 只需要肉眼不可察觉的时间。
我 google 了一下,在 StackOverflow 上(How to speed up Eigen library's matrix product?)有人讨论说是 MATLAB 内部自动会调用多线程版的 mkl 里的矩阵乘法,而 Eigen 在通常状态下是单线程的,需要在编译时加上
参数使用 openmp 开启多线程。我在自己的 Mac 上尝试了一下,在线程数为 4 的情况下,时间缩短为 0.57 秒,但相比 MATLAB 的肉眼不可察觉还是有差距。
我对计算机底层的硬件不是很熟,只是最近突然觉得处理起这种可以高度矢量化的问题时,(不是非常 wisely 地)使用Eigen 还是没有经过优化的 MATLAB 快。
P.S.: 最开始的单线程版本我使用的是 OS X 自带的
编译器,优化参数为
. 测试过加上
没有明显区别。这个
实际上是Apple 封装后的
,很可惜的是不支持 openmp. 所以为了开启多线程我安装了 GNU
编译器。其它编译参数不变。
=================更新==================
刚才又上 StackOverflow 上看了别人的几个帖子(
Eigen vs Matlab: parallelized Matrix-Multiplication)学习了一下,发现了几个新的 trick:
- 首先之前线程数我设置错误了。我的 CPU physically 应该只有两个核,四线程是 hyper-thread 的结果,多出来的两个线程并不能加速。我把 OMP_NUM_THREADS 改为 2 以后,速度变为 0.55s 左右;
- 如果计算矩阵乘法,使用
是个不错的 trick,它可以避免生成 temporary 的矩阵存储中间结果。使用这个后缩短为 0.50s 左右;
- 对 Eigen 3.3 或以上的版本可以加上
和
两个参数,进一步缩短为 0.40s 左右。
这样总的下来提速了约
30%.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)