请问在用arm neon指令优化程序时,在一个for循环下,分别用int32x2_t和int32x4_t类型的指令,后者的速度并没有按照理论上的速度更快,反而比前者慢是怎么回事呢?必须要对生成的汇编指令进行优化吗?谢谢指教。
"指令流水排布" 有哪些需要注意点? 一次计算16byte,地址16byte对齐是否影响多少?
>"指令流水排布" 有哪些需要注意点?
主要需要注意不要引起CPU的Hazard (关于Hazard可以参考: en.wikipedia.org/.../Hazard_(computer_architecture) )。
>一次计算16byte,地址16byte对齐是否影响多少?
对齐访问对一些指令的运行速度是有影响的。具体可以参考ARM Reference Manual中该指令的详细说明。