Arm的NPU究竟有何等高深之处

2020-02-07来源: 半导体行业观察关键字:NPU  Arm
领先的移动SoC设计人员多年来一直在其SoC中集成专用NPU。去年底,Arm也带来了Ethos NPU系列。此举是Arm拓展AI市场的最新举措。该公司在新的Ethos NPU系列下推出了三个初始IPEthos-N37,Ethos-N57和Ethos-N77。这三个初始IP旨在覆盖相当多的设备。顾名思义,每个功能都比前一个功能越来越强大。



三个NPU使用相同的微体系结构构建,但配置稍有不同,您将在稍后看到。下面的Arm可视化图描绘了NPU正在工作的各种市场和约束。

在低端是Ethos-N37,其目标是工作负载最轻的设备,其峰值计算性能高达大约1 TOPS,而需要很少的DRAM带宽(约为3 GB / s或更低);

Ethos-N57涵盖了更复杂的设备,例如大多数智能家居设备以及一些主流智能手机SoC。N57设计为具有更高的内存带宽,并可以提供大约2 TOPS的性能;

最后是Ethos-N77。这是系列中最强的产品,目标是性能高达4 TOPS的市场,并且具有约5 TOPS / W的较高功率效率。N77专为高级和中端AR / VR设备而设计,尽管它具有性能增强功能,但您仍需要更强大的功能。为了获得更高的性能,需要更高的内存带宽(内存带宽需要高达8 GB / s甚至更高)。

值得指出的是,这三个IP之间有很多重叠。N57可以覆盖N37范围的上部以及N77范围的下半部分。与N77相同。这为SoC设计人员提供了一些摆动空间,使其可以进行自己的设计。值得指出的是,这三个IP之间有很多重叠。N57可以覆盖N37范围的上部以及N77范围的下半部分。与N77相同。这为SoC设计人员提供了一些空间,使其可以进行自己的设计。


Ethos系列的核心是Arm的ML处理器(MLP)。MLP是一种干净的(clean-sheet ),底层(ground-up)的微体系结构,用于加速机器学习,重点是CNN和RNN。MLP实际上使用了相当简单的设计,这正是我们期望将出售给设计人员的IP中所期望的。MLP的主要组件是控制单元,DMA,广播网络和计算引擎。您可能已经猜到了,主要动作发生在计算引擎中。四个计算引擎的每个群集都分组为一个“四元组”。控制单元协调整个计算引擎以及DMA引擎的整个神经网络执行,该DMA引擎了解神经网络映射并可以确保数据在需要时到达。


我们可以以多种配置来实现MLP。两个主要控制是每个计算引擎中的SRAM库大小和计算引擎的数量。对于他们当前的设计,MLP可以具有从 从单个四核中的单个计算引擎到带有十六个计算引擎的四个四核等多个选择。在每个计算引擎中,您都有一块SRAM,用于存储输入和输出特征图以及权重。可以从64 KiB一直配置到256 KiB。无论配置如何,控制单元和DMA始终相同。


Ethos-N77本质上是完整的MLP配置。它具有四个quads 和16个计算引擎,并具有两种可能的SRAM配置–:64 KiB或256 KiB。同样,Ethos-N53包含四个quads ,总共八个计算引擎。N53每个CE带有固定的64 KiB SRAM存储区。Ethos-N37是性能最低的SKU,只有一个quad,总共只能容纳四个具有固定的128 KiB容量SRAM库的计算引擎。


计算引擎中的两个有趣的组件是MAC计算引擎(MCE)和可编程层引擎(PLE)。MCE包含高效的固定功能MAC单元,而PLE包含灵活的可编程矢量引擎。流程相对简单。输入activation tensor 和权重一起传递到MCE。计算之后,将结果传递到PLE进行后处理和可能需要的其他各种操作。没有复杂的控制,因为其中很多控制权交给了编译器,该编译器执行静态调度,对SRAM库进行预分区并压缩功能图和权重。

在MCE内则是一组八个MAC单元。每个MAC单元为16位宽。换句话说,每个MAC单元每个周期可以执行16个8位点积运算(dot product operations )。总体而言,每个计算引擎有256个OP /峰值性能周期。顺便说一下,这里的操作都是8位宽的,累加了32b。MLP确实支持16位操作,但着将使您的吞吐量减少4倍(即,每个周期64个OP)。下表列出了每个Ethos SKU的最高理论性能。当然,实际的工作负载性能将取决于这些MAC的利用率。需要指出的是,所有三个SKU都可以达到相同的1 GHz最大频率。


虽然N77的最高TOPS为4.1 TOPS,但实际的SoC并不需要达到该性能水平。相反,可以将MLP的多个实例集成到SoC中,以进一步提高性能。因此,例如,至少在理论上支持使用CCN-500互连最多扩展到八个MLP,而使用更新的CMN-600网格互连最多扩展到100个MLP。

除了MCE,计算引擎内的其他主要组件是可编程层引擎(PLE)。PLE实际上比MCE更强大,并且因为它是可编程的而具有更大的灵活性,尽管它在处理数百万次重复的MAC操作时在原始的功率效率竞争中有所损失。PLE是成熟的Cortex-M处理器,在其中还包含了向量和NN扩展。那意味着Ethos-N77在内部合并了16种Cortex-M向量处理器。

它采用专用的16通道矢量引擎协处理器模型进行设计。PLE主要设计用于MCE后处理,实现一些不太常见的功能。但是由于这本身就是一个功能强大的矢量引擎,因此在有或没有MCE的帮助下,它实际上都可以直接对SRAM数据进行操作。PLE的可编程性使Arm软件团队能够快速适应新的AI模型和功能。编译器工具链还提供了我们期望现代NPU能做的许多其他优化。由于编译器会提前对SRAM进行分区,因此它会执行激活和权重压缩,这有助于在整个设计中稍微减少带宽。此外,还有针对稀疏性的轻量优化。数据路径将选通为零,从而节省了一点功耗。


关键字:NPU  Arm 编辑:muyan 引用地址:http://news.2689mr.com/qrs/ic487450.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:英特尔DG1独显跑分,AMD R7 望尘莫及
下一篇:2020嵌入式处理器:用模拟计算回到未来

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

人工智能芯片杀出一匹黑马:Kneron
本文我们将评估Kneron的NPU是如何达到谷歌和英特尔的同类芯片。 随着边缘计算越来越受欢迎,许多大公司都致力于开发人工智能工作负载专用芯片。值得注意的是,谷歌和英特尔等大品牌分别凭借Coral的Edge TPU和Movidius Myriad X VPU在市场上站稳了脚跟。  现在,一个新玩家杀进了这个领域,并声称要与该行业的一些大公司竞争。总部位于加州的初创公司Kneron最近发布了KL720 AI SoC,他们称该SoC在速度、能效和成本方面优于市场上的任何其他SoC。为了证明这是否言过其实,我们着手对这款芯片与谷歌和英特尔的设备进行了比较。 边缘计算Coral Edge
发表于 2020-09-10
人工智能芯片杀出一匹黑马:Kneron
人工智能风口下的TPU/NPU/CPU/GPU
在芯片中可以挤出更多的操作时间,使用更复杂和强大的机器学习模型,将之更快的部署,用户也会更加迅速地获得更智能的结果。  根据Google一位杰出硬件工程师Norm Jouppi在一篇部落格文章中的说法,该种加速器早在一年多前就运用于Google的数据中心:“TPU已经启动许多Google的应用,包括用以改善搜索引擎结果关联度的RankBrain,以及在街景服务(Street View)改善地图与导航的精确度与质量。”  谷歌专门为人工智能研发的TPU被疑将对GPU构成威胁。不过谷歌表示,其研发的TPU不会直接与英特尔或NVIDIA进行竞争。  二、中星微——中国首款嵌入式神经网络处理器(NPU)芯片  中星微在今年6月 20 日
发表于 2020-08-25
人工智能风口下的TPU/<font color='red'>NPU</font>/CPU/GPU
含光800 NPU闪亮Hotchips 2020
去年,阿里巴巴达摩院院长张建锋发布了号称“全球性能最强的含光800芯片”,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。那么这款芯片强在哪里呢?在2020的Hotchips上,阿里介绍了利用含光800 NPU在数据中心的AI推理解决方案。  发言人详细的介绍了NPU基本构架: 4核环形总线192mb本地内存,分布式共享,无DDRPCIe 4.0 x16每个核都有三个引擎: Tensor, Pooling, Memory  这是张量引擎的吞吐量,数据
发表于 2020-08-19
含光800 <font color='red'>NPU</font>闪亮Hotchips 2020
Arm推出新一代旗舰CPU、GPU和NPU
Arm宣布推出用于旗舰型手机的新款处理器IP系列:Cortex-X1 CPU,Cortex-A78 CPU,Mali-G78 GPU和Ethos-N78神经网络处理器(NPU)。Arm表示,作为Arm定制化项目的一部分,Cortex-X1是迄今为止功能最强大的Cortex处理器,其峰值性能比当前的Cortex-A77 CPU高出30%,与刚刚发布的Cortex-A78相比,单线程整数性能提高了22%。Cortex-X1与Cortex-A78的差异Arm-Cortex-X1“这种短的高性能爆发产品最适合设备的快速响应,为智能手机和大屏幕设备提供了迄今为止最高的性能,” Arm表示,“此外,Cortex-X1与Cortex-A77相比
发表于 2020-05-27
Arm推出新一代旗舰CPU、GPU和<font color='red'>NPU</font>
7nm工艺,ISP和NPU全面提升,荣耀30S即将亮相
GPU,7nm工艺,ISP和NPU将全面升级。  近日XDA开发者论坛曝光了一组荣耀30S的高清渲染图,从渲染图来看,荣耀30S将采用侧面指纹识别方案,同时此次曝光的渲染图依旧采用了矩阵式后置四摄方案,同时除了渐变白色以外荣耀30S预计还将有一款橙色配色版。 但据博主数码闲聊站消息,新款荣耀30S采用荣耀20S正面设计语言以及荣耀V30的背部设计,也就是屏幕为打孔全面屏设计,后置为矩阵式后置三摄。这两种设计方案相差不大,主要区别是后置采用几颗摄像头。  目前荣耀30S已通过3C认证,从认证信息来看,荣耀30S将配备40W电源适配器,这款电源适配器与华为P40 Pro(型号为ANA
发表于 2020-03-19
7nm工艺,ISP和<font color='red'>NPU</font>全面提升,荣耀30S即将亮相
Arm Neoverse向云到边缘基础设施迈出坚实一步
各个重要的细分市场正在加速采用Arm Neoverse解决方案,包括大型互联网公司/云计算、高性能计算、5G以及边缘计算 通过Neoverse V1 和 N2平台的推出,Arm进一步促成基础设施转型。相较于Neoverse N1,这两款新平台的性能分别高出50%和40% Arm持续投资软件生态系统,提供无耗损的开发体验与“装机即用“的软件  Neoverse解决方案的推出是Arm跨向基础设施的第一步,该解决方案正驱动着各个领域的创新,从超级计算机,到持续部署的全球最大型的数据中心,一路延展到边缘计算。 为了进一步加速基础设施转型,并打造创新新高度,Arm宣布
发表于 2020-09-23
小广播
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 EEWORLD。com。cn, Inc。 All rights reserved
论坛跳槽送彩金 送彩金的棋牌app糖果派对 买彩票充值送彩金 哪些娱乐网站送彩金 足彩送彩金 彩票大赢家 mg游戏送彩金无需申请 有什么下载送彩金的网站啊 真人娱乐平台送彩金 澳门真人网上娱乐送彩金