• 新手怎么进行Arm Neon Intrinsic的编译?开发平台是mac,想交叉编译至arm平台。

    Bob Liao
    Bob Liao

    我是完全的新手,被mentor要求用neon来做移动端的计算优化。

    我想先学习下neon的使用,首先通过brew安装了gcc-arm-embedded,在Clion里配置好了toolchain为gcc-arm-none-eabi-9-2020-q2-update的g++和gcc,在网上查了下交叉编译需要指定cmake_toolchain_file,于是跑到github上拷了这份:arm-gcc-toolchain,终于能通过Cmake。可是Build的时候提示缺少_read这一类函数,因此我想到可能是因为这个g…

    • 1 day ago
    • 中文社区
    • 中文社区论区
  • NE10 和 acl(arm compute library)那个效果更好?

    oska874
    oska874

    现在想优化arm cpu 的运算能力,看到这两个库 ne10 和ACL,如果只针对cpu(比如A9和A53),那个库的运算性能更好?

    题外话,NE10和ACL 的定位和区分度?

    • over 1 year ago
    • 中文社区
    • 中文社区论区
  • Cortex-A7 下neon vld指令受memory/cache影响的探讨

    scott meng
    scott meng

    在使用汇编优化neon时,发现一个问题:

    假设函数的输入两个参数x[2048],y[2048],那么x,y的首地址是不连续的

    当在汇编中只读x的数据时所用时间明显比即读取x,也读取y的数据要长很多,我猜想是由于cache没有高效利用的原因,即造成了hit miss的现象,有什么方法可以尽可能的利用cache呢?

    汇编代码如下:

    只读取x

        vld1.32    {d0-d1}, [r0]!

        vld1.32    {d2-d3}, [r0]!

    读取x,y

        vld1.32    {d0-d1}, [r0…

    • over 2 years ago
    • 中文社区
    • 中文社区论区
  • 在编译器中使能了neon(-mfpu=neon)之后,还能同时使用fpu计算64bit浮点吗?

    oska874
    oska874

    在编译器中使能了neon(-mfpu=neon)之后,还能同时进行硬浮点计算吗?

    因为之前用硬浮点时编译器选项是 -mfpu=vfpv3,现在开始用neon之后,将fpu配置成了neon,对之前的硬浮点计算有影响吗?

    • over 2 years ago
    • 中文社区
    • 中文社区论区
  • neon 代码比C代码效率为啥比理论值相差这么大?

    zcmcu
    zcmcu

    尝试翻译一段 图片镜像的代码,neon优化的代码运行时间,只有C代码的一半,但远低于loop循环计算出来的理论值,为什么会有这么大落差??

    C代码:

    void C_Nv21YSelfMirror(char* output,char * input,int width,int height)

    {
            int i,j=0;

    for(j=0; j<height;j++){

    int index = j*width;

    for(i=0;i<width;i++)
    {
        *(output+index…

    • over 2 years ago
    • 中文社区
    • 中文社区论区
  • Neon代码O2反汇编的一些疑惑

    Hyperion
    Hyperion

    最近在学习neon_programmer_guide,其中有一个demo如下

    void add_int (int* restrict pa, int* restrict pb, unsigned int n, int x)
    {
    unsigned int i;
    for(i = 0; i < (n&~3); i++)
    pa[i] = pb[i] + x;
    }

    我在ubuntu10的PC上也编译了一版,使用-O2 -ptree-vertorize 但是对反汇编出的结果很疑惑,code如下…

    • over 3 years ago
    • 中文社区
    • 中文社区论区
  • neon指令每条指令花费的时钟周期是多少?有相关的文档吗?

    Hyperion
    Hyperion

    之前一直使用neon内联函数优化代码?但有些代码优化后效率实在不如人意?是不是代码顺序不好不利于cpu流水线工作?有没有相关的文档介绍下每条内联函数的时钟周期,这样是不是可以更好的安排代码顺序呢?

    • Answered
    • over 3 years ago
    • 中文社区
    • 中文社区论区
  • 请问在用arm neon指令优化程序时,在一个for循环下,分别用int32x2_t和int32x4_t类型的指令,后者的速度并没有按照理论上的速度更快,反而比前者慢是怎么回事呢?必须要对生成的汇编指令进行优化吗?谢谢指教。

    Alps
    Alps

    请问在用arm neon指令优化程序时,在一个for循环下,分别用int32x2_t和int32x4_t类型的指令,后者的速度并没有按照理论上的速度更快,反而比前者慢是怎么回事呢?必须要对生成的汇编指令进行优化吗?谢谢指教。

    • over 3 years ago
    • 中文社区
    • 中文社区论区
  • 请问ARM NEON移位指令,例如vshr.u8 q1, q0, #3 中的移位数3可以是定义的变量吗 比如int a= 3; vshr.u8 q1, q0, #a(编译时会出错)。如果想用变量,该用哪个移位指令表示呢

    Alps
    Alps

    请问ARM NEON移位指令,例如vshr.u8 q1, q0, #3 中的移位数3可以是定义的变量吗  比如int a= 3; vshr.u8 q1, q0, #a(编译时会出错)。

    如果想用变量,该用哪个移位指令表示呢

    • Answered
    • over 3 years ago
    • 中文社区
    • 中文社区论区
  • R8 处理器有类似 Neon 的 SIMD 指令么?

    scimg
    scimg

    RT,图像处理速度优化。

    • Answered
    • over 3 years ago
    • 中文社区
    • 中文社区论区
  • 请问cortex-a57中neon内部架构介绍的文档哪里可以找的到?

    fansi
    fansi

    如题

    • over 4 years ago
    • 中文社区
    • 中文社区论区
  • neon汇编中如何定义一个全局的数组,在汇编中使用

    siman
    siman

    我想在neon汇编代码中,定义一个1K字节的数组,在汇编代码中使用,不知道该如何定义,以及汇编时如何获取该数组的地址?

    另外,如果汇编代码使用C代码中定义好的数组,如何获取该数组?

    我使用ldr r0, =g_buff 获取C中g_buff地址,但是发现r0中的值不是g_buff的地址,不知道用法是否不对?

    • Answered
    • over 5 years ago
    • 中文社区
    • 中文社区论区
  • neon 如何实现int类型数据转换成9bit的饱和运算

    siman
    siman

    在做neon汇编优化的时候,遇到需要将一个int类型数据饱和到9bit的范围,不知道如何实现?麻烦帮忙解答下,谢谢!

    • Answered
    • over 5 years ago
    • 中文社区
    • 中文社区论区
  • 关于neon汇编的几个问题

    siman
    siman

    1.VMLAL.I16  这条指令I16是的意思是可能是S16或者是U16吗? 如果有个数是S16,有个数是U16,这两个数相乘可以使用I16吗??

    2. 

    Vopn{cond}.datatype list, [Rn{@align}]{!}

    Q1:文档中说到 “Align 可省略。 在这种情况下,将应用标准对齐规则”。 这里的标准对齐规则是什么样的?

    Q2:如果Rn地址没有按照Q1中提到的标准对齐规则, 那么load数据的时候是否会出错还是说效率降低?

    Q3:如果已经确定Rn是按照256bit对齐…

    • Answered
    • over 5 years ago
    • 中文社区
    • 中文社区论区
  • eclipse 调试neon汇编代码编译问题

    siman
    siman

    大家好,

    我想通过eclipse 编译neon汇编代码,同时通过remote system explorer 在arm 板卡上的linux系统中调试neon汇编代码,我使用的是linaro编译器gcc-linaro-arm-linux-gnueabihf-4.9-2014.09,

    但是编译的时候出错了:

    Info: Internal Builder is used for build

    arm-linux-gnueabihf-gcc -O0 -g3 -Wall -c -fmessage-length=0 …

    • Answered
    • over 5 years ago
    • 中文社区
    • 中文社区论区
  • ARM 和NEON 汇编条件执行问题

    siman
    siman

    技术支持好:

    在文档中说过

    The instructions that can be conditional have an optional condition code, shown in syntax

    descriptions as {cond}. Table 3-2shows the condition codes that you can use.

    当我使用ARM 指令

    subs r3, r3, #1

    strpl r3, [r0]!

    汇编编译正常,可以条件执行,但是我现在想用neon汇编,vld和vst…

    • Answered
    • over 5 years ago
    • 中文社区
    • 中文社区论区
  • Ne10向社区开放代码贡献

    Zhou Yu (俞宙)
    Zhou Yu (俞宙)

    projectNe10/Ne10 · GitHub 终于于2015年1月正式向社区开放代码贡献了!

    任何组织或者个人在打印、填写并签署了一份简单的Contributor License Agreement (CLA),并将其扫描件发送到cla-submissions@arm.com,经过ARM法务部门审核通过之后,就可以向Ne10贡献代码。具体请看这里。

    Ne10作为New BSD许可协议下的快速发展的开源项目,欢迎各种贡献。

    • over 5 years ago
    • 中文社区
    • 中文社区论区
  • 新手关于 Neon 和 VFP 几点疑问

    JimmyLiu
    JimmyLiu

    最近正在学习利用 cortex-A9 的neon intrinsics 优化已有的程序,看了一些技术白皮书有几个疑问:

    1.我原先的程序用的是双精度浮点数(double precision,64bit length),用Neon的话只能处理16位的浮点数吗?(因为文档里只介绍了半精度浮点数,所以不是很了解)

    2.我用VFP处理浮点数是否比Neon的SIMD技术更优呢?

    不胜感激!

    • Answered
    • over 6 years ago
    • 中文社区
    • 中文社区论区
  • 有没有人总结过ARMv7和ARMv8的区别?

    Lu Wenjin
    Lu Wenjin

    要公开的资料,不要内部的Confidential信息

    • Answered
    • over 6 years ago
    • 中文社区
    • 中文社区论区
  • ARM 进军企业级服务器和物联网

    Song Bin 宋斌
    Song Bin 宋斌

    作者:Pete Singer,《Chip Design》主编

    在本月早些时候举办的 ARM TechCon 大会上,ARM 集团的执行副总裁兼总裁 Pete Hutton 先生表示,从企业级服务器 64 位芯片到面向传感器应用的微控制器,ARM 正分兵多路进军物联网。他介绍了许多全新开发的技术和发布的产品,包括 HP 的 64 位 ARM® 服务器、针对 big.LITTLE™ 技术的智能功率分配功能、面向 ARM NEON™ 的 OpenCL™ 技术…

    • over 5 years ago
    • 中文社区
    • 中文社区博客
  • Ne10 FFT 介绍:支持基3、基5 FFT,NEON带来显著的性能提升

    Phil Wang
    Phil Wang

    最近,Ne10 v1.2.0 发布了。该更新提供了一个新功能——基3、基5的快速傅立叶变换(FFT)。 在基准测试中可以看到, NEON优化使得FFT得到大幅的性能提升。


    1. Ne10项目

    Ne10 项目旨在为ARM的生态系统提供高度NEON优化的基础函数,比如图像处理(Image Processing)、数字信号处理(DSP)和数学(math)函数等。想要更多地了解Ne10项目,请移步此博客。想更多地了解Ne10中的FFT功能,请移步此博客。


    2. Benchmark

    2.1…

    • over 5 years ago
    • 中文社区
    • 中文社区博客
  • ARM Cortex-A 处理器和 GCC 命令行

    Song Bin 宋斌
    Song Bin 宋斌

    原文地址:ARM Cortex-A Processors and GCC Command Lines

    原作者:richardearnshaw

    面向 ARM 处理器的 GNU 编译器集合(GCC) 命令行选项最初是在多年前设计的,当时可用处理器和变体产品的列表与现今相比要短很多。 随着 ARM 架构的演进,从 GCC 中获取最佳代码所需的选项也已改变,但已做了各种尝试以确保现有选项集不会改变其本意。设计编译器意味着最有效使用 ARM CortexTM-A 处理器所需的选项目前相当复杂。本博文包含 GCC…

    • over 5 years ago
    • 中文社区
    • 中文社区博客
  • NEON驱动OpenCL强化异构多处理

    Song Bin 宋斌
    Song Bin 宋斌

    原文地址:Heterogeneous Multiprocessing Gets a Boost with the New OpenCL for NEON Driver

    作者:stevesteele

    作者简介:

    Steve 2001年开始在ARM工作,参与过很多技术项目包括ARM的Java Program,软件产品, 数据引擎(DSP),PV Fast Modelling快速模型和Video IP。 Steve目前在Media Processing部门负责Mali-T604和Mali-T658系列GPU

    …
    • over 5 years ago
    • 中文社区
    • 中文社区博客
  • [原创] Ne10 加速ARM平台图像处理应用

    Yang Zhang 张洋
    Yang Zhang 张洋

    Ne10 加速ARM平台图像处理应用

    1 简介

    现在,大部分智能手机已经配备了双摄像头,由此而带来的图像类应用越来越多,手机用户们已经非常习惯去拍摄,分享各种各样的图像数据。而且,随着摄像头的分辨率越来越高,数据量也越来越大。在现有的CPU计算能力和无线网络带宽下,用户又想使用丰富多彩的图像应用。因此,加速图像处理应用显得尤为重要。ARM NEONTM 技术采用SIMD(单指令,多数据)体系结构,可以有效提升多媒体和信号处理应用程序的性能,从而增强用户体验。同时,NEONTM技术与ARM处理器紧密结合…

    • over 6 years ago
    • 中文社区
    • 中文社区博客
  • [转]利用 NEON 优化 Windows RT 应用程序

    Yang Zhang 张洋
    Yang Zhang 张洋

    http://blogs.arm.com/software-enablement/871-windows-rt-app-optimization-with-neon/

    利用 NEON 优化 Windows RT 应用程序

    投稿人: Alan Chuang,2013 年 1 月 7 日

    随着 Windows RT 的到来和 Microsoft 应用商店的开幕,你现在可以在 ARM 平台上开发 Windows 应用商店应用程序,通过 Microsoft 应用商店提供给 200 多个市场。如果你是 Andr…

    • over 6 years ago
    • 中文社区
    • 中文社区博客
  • View related content from anywhere
  • More
  • Cancel
>