请问在用arm neon指令优化程序时,在一个for循环下,分别用int32x2_t和int32x4_t类型的指令,后者的速度并没有按照理论上的速度更快,反而比前者慢是怎么回事呢?必须要对生成的汇编指令进行优化吗?谢谢指教。
谢谢您的回答。我现在用的平台是armv7,int32x4_t 对应的程序中用了5个register,5个in32x4_t,应该够用吧? 程序中有两个vld1q_s32指令,这种数据加载指令会不会耗时很多?
5个寄存器一般不会有问题。数据加载是比较耗时的,但是具体慢的原因需要考虑全部指令使用情况。