大家好本人第一次发帖,
最近在从事一些arm a53的优化工作,遇到些困惑希望可以得到大家指点与帮助。
在测试指令过程中,
问题1:发现ld3 load 8x8x3 u8效率为 9个ticks , load 16x8x3的效率为 16 ticks , 根据Cortex_A57_Software_Optimization_Guide_external.pdf 文档上的表述,我理解应该
2者一致才对。不知道是不是我理解问题??
问题2:ld3 9个ticks效率个人觉得很低了,文档上写了throughput 为1 ,是不是说明合理排布流水线可以大大的提高ld3指令的效率呢? 如果是怎么怎么排布呢?
以上问题希望得到大家的解答