近期在使用computer shader 开发矩阵乘法时遇到一个问题,一个常见的矩阵乘法C=AB,为了使内存连续,我对B矩阵进行了转置,自认为这样子可以加快运行速度。但是,当我进行测速的时候发现,行x行的形式比行x列慢了好几倍,探究许久,无法理解,因此写下该问题求助!!!
我的环境mali G77 (联发科天玑1200)
A矩阵维度:4x2048x2048
B矩阵维度:4x2048x2048
时间对比
行x行:9s左右
行x列:1.6s左右
列x列:3.3s左右