Mali 进行矩阵乘法先进行转置成行x行的形式速度反而更慢问题

近期在使用computer shader 开发矩阵乘法时遇到一个问题,一个常见的矩阵乘法C=AB,为了使内存连续,我对B矩阵进行了转置,自认为这样子可以加快运行速度。但是,当我进行测速的时候发现,行x行的形式比行x列慢了好几倍,探究许久,无法理解,因此写下该问题求助!!!

我的环境mali G77 (联发科天玑1200)

A矩阵维度:4x2048x2048

B矩阵维度:4x2048x2048

时间对比

行x行:9s左右

行x列:1.6s左右

列x列:3.3s左右

  • 添加到短语集
    • 没有此单词集:中文(简体) → 中文(简体)...
    • 创建新的单词集...
  • 拷贝