原文地址:Extended System Coherency - Part 3 – Increasing Performance and Introducing CoreLink CCI-500
原作者:neilparris
在本周,我们宣布推出旨在增强高端移动体验的全新 IP 套件。 此套件的核心是 ARM CoreLink CCI-500 缓存一致性互联,它以率先获得市场成功的上一代互联为基础,拓展了 ARM 系统在性能和更低功耗上的领先地位。
一年前我发表了与本主题相关的第一篇博文,自此以来阅读量已过 47,000。我们可以发现,系统一致性依然是 SoC 设计起步阶段的一个重要因素。 CoreLink CCI-400 已经大获成功,35 多家受许可方来自各种应用领域,从移动 big.LITTLE 到网络基础结构、数字电视和车载信息娱乐等。 在所有这些应用中,需要多处理器群集的完全一致性,以及加速器及网络和 PCIe 等接口的 IO 一致性。
与 CoreLink CCI-400 相比,CoreLink CCI-500 提供高达两倍的峰值系统带宽,30% 处理器内存性能提升、更低的系统功耗,以及高度缩放和配置能力,能够满足各式应用的需求。 本篇博文将深入细述这些优点,但首先我们简短回顾一下缓存一致性和共享数据。
例如,上图中的箭头表示 big 和 LITTLE 处理器群集之间的监听,以及从 IO 接口到两个处理器群集的监听。 这些监听是访问任何共享数据必需的,以此确保其缓存为硬件一致性缓存。 换而言之,确保所有处理器和 IO 看到同一个一致内存视图。
对于大多数工作负载而言,作为监听请求结果而执行的大部分查询将不命中,也就是它们无法在缓存中找到所请求数据的副本。 这意味着许多由监听引发的查询可能造成对带宽和能源的不必要使用。 当然,我们已经剔除了软件缓存维护的更高成本,但或许我们可以进一步优化?
此时监听过滤器登上舞台。通过将监听过滤器集成到互联之中,我们可以维护一个处理器缓存内容目录,免除广播监听的必要。
监听过滤器的原理如下:
得益于集成式监听过滤器,CoreLink CCI-500 能够比上一代互联更加节省系统内存功耗。这种功耗节省受益于执行一个中央监听查询而不是许多个,同时减少每个命中缓存的监听的外部内存访问次数。 此外,它也可能在监听过滤器回复一致性请求期间,让处理器群集在更长的时间内保持低功耗睡眠状态。
移动系统通常为每个处理器群集包含异步时钟桥接器,而这些桥接器之间的通信会带来延迟。 相反,与互联监听过滤器的通信更快速、更容易,功耗也更低。 监听延迟性的减缓可以让处理器性能受益,基准测试表明在内存密集的处理器工作负载中性能提升 30%。 这有助于让您的移动设备速度更快、响应更灵敏,而且能加快视频编辑等生产力应用程序的速度。
另外,通过减少监听,系统中的处理器可以将它们的资源集中于处理性能,更少地去响应监听。 实际上,它意味着用户将拥有性能更高、功耗更低的 SoC。
许多市场中都有采用多群集 SoC 的一致趋势,因为设计团队努力要释放更多的计算性能。 扩展到处理器群集更多、带宽更高的系统,也将显现出监听过滤器的更大优势。 实际上,它已成为将性能扩展到两个处理器群集以上时的必要元素。 CoreLink CCI-500 具有高度可缩放性,支持从 1 到 4 个 ACE 接口(即 1 到 4 个处理器群集)的配置。 双群集 big.LITTLE 将依然是移动应用中的标准,而对其他应用而言,也有采用更多处理器或者一致性加速器的机会。
基础结构联网和服务器应用已经在处理器和 IO 之间拥有很高比例的共享内存访问;ARM CoreLink CCN 缓存一致性网络系列产品已经包含了集成式监听过滤器,为这些应用所需的高性能和低延迟提供保障。 CoreLink CCN 系列依然是性能最高的一致性互联 IP,支持最多 12 个群集(48 核心)、集成式 L3 系统缓存,以及超过 1GHz 的时钟速度。 CoreLink CCI-500 针对移动和其他功率受限应用所需的性能和功率范围进行了优化。 作为补充的 CoreLink NIC-400 网络互联则提供低功耗、低延迟的“其余 SoC”连接,满足 IO 互联请求程序和数十或数百外设与接口的需求。
没有“一码通吃”的互联;相反,ARM 拥有针对每种应用的需求而优化的各种产品。
智能手机和平板电脑等移动设备的性能一代代提升;而实际上,平板电脑正在取代许多笔记本电脑的购买量。 SoC 性能的一个重要维度是内存带宽,而这是由屏幕分辨率、3D 游戏、分辨率更高的多摄像头,以及分辨率很高的外部显示屏而推动的。 “视网膜”级显示分辨率已经是移动设备中的常态,而具备超高清 4K 显示屏的高端电视机也已面世一两年。 4K 内容出现在移动设备中也只是时间问题而已。
为支持这种内存带宽的提升,SoC 供应商将目光投向最新的低功耗双数据率 (LPDDR) 动态 RAM (DRAM) 技术。 LPDDR3 是完备的技术,于 2013 年现身于消费型设备;LPDDR4 则在部分 2014 款设备上采用,2015 年将继续在移动和非移动应用中提高采用率。 每一代 LPDDR 都会降低电压,同时提高接口频率,其最终结果: 带宽更大,每位能耗更低。 单个 32 位 LPDDR4-3200 接口将提供 12.8GB/s 的速度,而这是当今高端智能手机的典型配置。
对于移动设备而言,32 位内存通道是常见配置。单通道内存用于成本较低的入门级智能手机,双通道面向高端智能手机,而四通道则运用在性能最高的平板电脑上。
CoreLink CCI-500 将 CoreLink CCI-400 的峰值系统带宽翻了一番,支持最多 4 个内存通道。 这或许能让合作伙伴构建支持 34GB/s 及以上的内存系统,打造高性能、高分辨率的平板电脑产品。 当然,对多种应用的缩放能力很重要,CoreLink CCI-500 可以根据性能要求配置为 1 到 4 个内存通道。
ARM CoreLink 互联的一个最大优势是它与我们的 Cortex® 和 Mali™ 处理器产品一同开发、验证和优化,拥有我们合作伙伴期望的高质量水平。 本周的发布会还公布了 Cortex-A72(ARM 性能最高的 Cortex 处理器)、Mali-T880 GPU(我们最新 Mali-V550 视频 Mali-DP550 显示 IP 的高端配置),以及面向 16 FinFet 的 Artisan 物理 IP。
为了完善 SoC,ARM 还提供一整套系统 IP,如 CoreLink NIC-400 网络互联(面向其余 SoC 的低功耗、低延迟、端对端连接)、CoreLink MMU-500 系统 MMU(用于 IO 虚拟化),以及 CoreLink GIC-500(用于多群集之间的中断管理),当然还有用于调试和追踪的 CoreSight 。 所有这一切的核心是 CoreLink CCI-500 缓存一致性互联。
与我们所见的许多其他计算功能首先从企业级应用开始一样,移动 SoC 也在芯片上的共享流量数量上紧跟步伐。 这证明了移动计算能力依然在稳步前行,正在融入几年前仅在高端笔记本电脑上采用的许多功能。 移动设备现在本身也是高性能设备,这不足为奇。
我个人期待看到 2020 款设备与今天高端移动设备相比的结果,也期待着迎接未来的挑战,开发出能够为明日高端设备提供基础结构的 ARM 技术。 在您眼中,5 年后的设备会是什么样子呢?
更多信息链接: