如何更加高效的排布a53的指令流水?

大家好本人第一次发帖,

最近在从事一些arm a53的优化工作,遇到些困惑希望可以得到大家指点与帮助。

在测试指令过程中,

问题1:发现ld3 load  8x8x3 u8效率为 9个ticks ,  load 16x8x3的效率为 16 ticks ,  根据Cortex_A57_Software_Optimization_Guide_external.pdf 文档上的表述,我理解应该

2者一致才对。不知道是不是我理解问题??

问题2:ld3 9个ticks效率个人觉得很低了,文档上写了throughput 为1 ,是不是说明合理排布流水线可以大大的提高ld3指令的效率呢? 如果是怎么怎么排布呢?

以上问题希望得到大家的解答