cpu性能优化之流水线以及cache问题

1、A53的8 stage in-order流水线信息可以去哪查找(fmla是9cycles的latency,那么在8级流水线里面是怎么分配这9个cycles的呢)?
2、同样的指令,如FMLA,在A57下是9个cycle,但是在A72下却是7个cycle,那么在A53下是多少个呢(官网上没找到数据)?
3、cpu访问L1 cache需要几个cycles? L1 cache访问L2 cache呢? L2 cache访问DRAM呢?
4、CPU读内存优化有什么技巧呢?
5、有没有什么比较好的profire工具呢(目前在Linux下用perf接口)?