三强争霸高端FPGA市场

2019-11-11来源: 半导体行业观察关键字:FPGA  Achronix  Xilinx

英特尔在早前宣布,他们已开始将其第一批新的Agilex FPGA交付给抢先体验的客户。这使得最大的两家FPGA供应商之间竞争进入到了“正面交锋”阶段。Xilinx于6月份交付了他们的第一款“ Versal ACAP”FPGA,因此,在经历了一场漫长而有争议的“谁能首先交付?”之战之后。事实证明,这两家竞争公司都可以在大约两个月内,开始交付其可用来与对手对标的FPGA产品线。这意味着,与其他凭借第一时间引入先进节点来提升性能的竞争不同,这两家公司都没有足够的时间去利用一种新的、更先进的技术来赢得设计上的胜利。

 

不过,这次竞争的领域扩大了,新玩家Achronix声称他们将在今年年底之前交付其新型Speedster 7t FPGA的首批样品。对于开发团队而言,这意味着到今年年底,将有三款完全不同的高端FPGA产品可供选择——所有这些产品都采用类似的工艺技术,并且均具有独特的功能。 

 

本篇文章是比较这三家供应商的新高端FPGA系列的多部分系列中的第一部分。我们将研究底层的工艺,FPGA逻辑组织(LUT)本身,用于加速处理和联网的强化资源,存储器架构,芯片/封装/定制架构,I/O资源,设计工具策略,每个产品的独特和新颖的特性和功能,以及营销策略。如果您是可以从大量FLOPS,疯狂的带宽或是从设计过的一些有趣,功能强大的半导体器件中获得乐趣的人,那么,这对你来说将是一次令人兴奋的旅行。

 

注意事项–英特尔和Achronix都参与其中,并提供了本文的信息。Xilinx没有回应我们对信息的请求。

 

这一次,高端FPGA的霸主地位有所改变。过去,高端FPGA最大的市场是在网络方面,市场份额的变化也是如此,这主要取决于谁可以为部署最新一轮的有线和无线网络客户的产品提供最丰富的设计,,谁就可以取得较大的市场份额。然而,5G推出的时机已经改变了这一动态。在当前的FPGA技术浪潮到来之前,5G就已经开始加速扩展。因此,第一轮5G的主干网是建立在上一代可编程逻辑上的。这些器件将融入一个已经很强大的5G生态系统,因此,我们无法确定5G的彻底革命和新一代FPGA的诞生之间是否保持了一致。这些FPGA的设计已经充分理解了5G的机制。但是,不要低估FPGA对5G的重要性,或者5G对FPGA市场的重要性。今天,当你使用手机时,你的通话有99%的可能是通过FPGA进行的。有了5G,FPGA的影响会更大。

 

随着数据中心加速(主要是针对AI工作负载)这一新兴市场的快速扩展,这一现象引起了人们的兴趣。据估计,人工智能加速市场将在未来几年中飞速发展,因而这三家供应商都将以其令人印象深刻的性价比和更高的能效来争夺这些设备的大部分市场份额,并声称他们提供的解决方案可以一直延伸到边缘/端侧。这些供应商中的每一个都非常清楚地意识到占领这些AI加速卡插槽是当务之急,并且他们都围绕这个想法设计了新芯片。 

 

让我们看看所有这些因素吧?

 

从底层工艺技术来看,Xilinx和Achronix FPGA系列在基于TSMC 7nm而设计,而Intel Agilex则采用了性能相近的Intel 10nm工艺。不要被7/10命名差异所迷惑。不要被7/10的命名法差异所混淆。我们很早以前就曾指出,半导体行业的营销团体根据市场上听起来不错的东西来命名节点,而不是从晶体管本身的任何可识别的特征中推导出它们。据我们估计,TSMC的7nm和Intel10nm是大致相当的工艺,使用这两种工艺的厂商基本一致。这意味着英特尔在工艺技术方面长期保持的领先地位似乎已经消失,不过,当我们接近摩尔定律的瓶颈时,硅加工领域的竞争升级是不可避免的。

 

当推进到最新的半导体工艺节点,这三个供应商都获得了适度的推动。然而这种推进已不可能达到摩尔定律的历史标准,因为在过去几个工艺节点的新流程更新所带来的收益增量一直在稳步下降。每个人从FinFET技术问世中都获得了一次临时性的推动,现在,随着摩尔定律即将在经济层面上终结,我们可能会发现边际收益递减趋势将一直延续。

 

在过去,随着晶体管尺寸的减小,每个新工艺节点都让晶体管的密度大量提升,并获得更好的性能和更低的功耗。现在,供应商必须在这三者之间进行权衡,并且即使在他们偏爱的指标上,通常也只能得到较小的回报。同时,转移到新工艺节点的non-recurring费用继续呈指数级增长。这意味着FPGA公司所承担的风险急剧上升,这是因为为了保持竞争力,他们需要不断投资才能获取不断减少的收益。这也意味着我们正在进入一个新时代,FPGA本身的架构和功能、FPGA工具以及这三家公司的营销策略将成为影响收益的关键因素,而不是谁将率先使用新的制程工艺。

 

考虑到工艺技术实际上是一种洗礼,让我们看一下每个供应商产品的功能和特性。从最基本的FPGA功能– LUT结构开始。我们经常感叹每个公司对LUT的计算都不一样,而且这个游戏每一代都变得更加复杂。Xilinx和Achronix当前使用的是6输入LUT,而Intel的ALM本质上是8输入LUT。厂商或多或少地同意我们可以使用2。2 LUT4s per LUT6,,和2。99 LUT4s per LUT8将不同的LUT转换为等价的4输入LUT。

 

根据这方法一计算,Achronix Speedster 7T系列包括从363K到2。6M LUT6(相当于800K到5。76M的等效LUT4)领先业界,Intel Agilex系列包括132K到912K 的ALM(相当于395K到2。7M的等效LUT4),Xilinx的Versal系列产品包含了约246K到984K CLB(可换算成541K到2。2M的等效LUT4)。每个供应商都声称自己的体系结构优越,着重强调了可以提高某些特定应用或配置中的逻辑密度,性能或可布线性的设计功能。目前,我们尚不清楚任何供应商的LUT是否明显优于其他任何供应商的LUT。

 

但是,FPGA可用资源不仅取决于LUT的数量。还必须考虑以下挑战:被有效使用LUT的百分比(我们将在稍后讨论设计工具时进行讨论),以及集成到逻辑模块中的强化功能的数量,这些功能允许以最小的方式实现设计功能LUT结构的参与。根据您的设计,您可能会发现更多内容被塞入一个或多个FPGA中,而这些内容和LUT数量无关。

 

FPGA“擅长”人工智能推理的主要原因是其可以并行完成大量的算术运算(主要是各种精度的乘法累加),这要归功于编织在可编程逻辑结构中的存在大量"DSP块阵列"。这使得FPGA能够比传统的冯·诺依曼结构的处理器更有效地执行例如卷积等矩阵运算。

 

分析对AI推理至关重要的硬件乘法器,Achronix的可变精度乘法器可实现41K int-8乘法或82K int-4乘法。英特尔Agilex具有2K-17K 18×19乘法器,Xilinx Versal有500-3K“DSP引擎”,大概是“ DSP58 slice”,包括27×24乘法器和新的硬件浮点功能。这种比较肯定是“从苹果到橙子到芒果”,至于哪种水果更适合您的应用,它必须是“由设计者决定的”。 

 

现在,这三个供应商都增强了对浮点乘法的支持。Achronix为他们的DSP块提供了一个全新的架构,他们称之为"机器学习处理器"(MLP)。每个MLP包含多达32个乘法器/累加器(MAC)、4-24位整数模式和各种浮点模式,可支持包括TensorFlow 的Bfloat16格式和块浮点格式。最重要的是,Achronix MLP将嵌入式存储器模块与计算单元紧密耦合,从而使MAC操作能够以750 MHz的频率运行,而等待通过FPGA组织访问存储器获取数据。 

 

英特尔还使用具有硬件浮点的可变精度DSP模块(基本上就像它们已经提供了多年的功能一样)。英特尔的浮点支持也许是三者中最广泛和最成熟的。借助Agilex,他们推出了两种新的浮点模式,即半精度浮点(FP16)和块浮点(Bfloat16),并且进行了架构调整,以使其DSP运算更加高效。 

 

Xilinx已将其以前的DSP48 Slice升级到DSP58 ——大概是因为它们现在包括了硬件浮点,并且其乘法器也升级到了27×24。因此,在这一代产品中,另外两家供应商也加入了英特尔的行列,提供支持浮点运算的硬件乘法器。对于Xilinx而言,这是一个逆转。赛灵思此前声称,FPGA中实现浮点硬件乘法器不是一个好主意,因为浮点运算主要用于训练,而FPGA则主要针对推理应用。 

 

就可用的浮点格式而言,Versal(最多2.1K乘法器)和Agilex(最多8.7K乘法器)都支持FP32格式。这三个系列均支持半精度(FP16)——Versal最多可支持2.1K乘法器,Agilex最多可支持17.1K乘法器,Speedster最多可支持5.1K乘法器。Agilex(最多17.1K乘法器)和Speedster(最多5.1K个)支持Bfloat16。对于FP24格式浮点乘法,Versal和Agilex可能会使用FP32单元,而Speedster则具有高达2.6K的乘法器。Achronix Speedster还支持多达81.9K的块浮点乘法器。

 

Xilinx还带来了一种新的软件可编程矢量处理器——高达400个1GHz+VLIW-SIMD矢量处理核心阵列,具有增强计算和紧密耦合的内存。这为并行化复杂的向量运算并利用FPGA丰富的计算资源提供了更为简单的编程模型。总体而言,是在Xilinx的“kitchen sink”竞争策略上选中了“GPU /推理引擎”。稍后我们将详细讨论这一点。

 

英特尔对Achronix MLP和Xilinx

[1] [2]
关键字:FPGA  Achronix  Xilinx 编辑:muyan 引用地址:http://news.2689mr.com/FPGA/ic479583.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:英特尔发布全球最大容量的全新Stratix® 10 GX 10M FPGA
下一篇:面对下一代ASIC验证 英特尔发布全球最大容量FPGA产品

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

深维科技荣获北航全球创新创业大赛二等奖
2019年12月底,第三届北航全球创新创业大赛总决赛在京举行。经过初赛、复赛的激烈对决和层层选拔,深维科技参赛项目“超高性能数据中心FPGA异构计算加速解决方案”从百余项参赛项目中脱颖而出,荣获本次全球创新创业大赛二等奖 。 图:深维科技荣获北航全球创新创业大赛二等奖,公司CEO樊平(左三)上台领奖 深维科技超高性能数据中心FPGA异构计算加速解决方案是在目前最高效的谷歌WebP压缩技术上,基于FPGA异构基础开发出了ThunderImage JPEG2WEP转码方案,以Baseline(一种M4模式)为例,ThunderImage JPEG2WebP的业务处理能力相当于10倍的CPU(E5-2680v4
发表于 2020-01-10
深维科技荣获北航全球创新创业大赛二等奖
QuickLogic在CES上展示应用在消费领域的边缘AI
QuickLogic是超低功耗多核语音SoC,嵌入式FPGA IP和终端AI解决方案的开发商,在CES上,该公司将展示基于AI的语音控制的物联网终端,音频和可穿戴应用,采用其EOS S3语音和传感器处理平台。产品,演示和显示包括始终在线的语音,始终在线的声音和传感器处理,SensiML Analytics开发工具和OEM产品。EOS S3语音和传感器处理平台支持唤醒字听功能,其功耗仅为其他基于MCU设备的十分之一,应用包括Amazon Alexa的TWS耳塞,消费电子产品,远程控制,可穿戴设备和智能手机等。此外,结合英飞凌集成的Alarm系统,QuickLogic将演示新的支持AI的消费物联网案例。SensiML
发表于 2020-01-07
示波器的内部结构以及FPGA在示波器中的作用
背景示波器是我们在物理试验、电路硬件调试、智能硬件开发等领域都能见到的一种仪器,就像是医生的听诊器,作为硬件研发工程师都要用的溜溜的。那么,里面到底是怎么样的一种构造呢?比较好奇的玩家可能已经想把实验室的示波器给拆开看看了,今天小编来满足一下比较好奇的小伙伴们,我们来一起看一下一款数字荧光示波器的内部构造。今天拆的是Uni-T Ultra Phosphor UPO2104CS型号的示波器,如图.1所示,我们打开后竟然在示波器了发现了Xilinx Spartan-6 FPGA。是不是瞬间感觉自己也能做一台示波器出来,同时好奇这FPGA在示波器中的作用是什么?接着往下看细节,此示波器中的Spartan-6 LX45 FPGA
发表于 2020-01-07
示波器的内部结构以及FPGA在示波器中的作用
使用SignalTap II逻辑分析仪调试FPGA
1 概述--- 随着FPGA容量的增大,FPGA的设计日益复杂,设计调试成为一个很繁重的任务。为了使得设计尽快投入市场,设计人员需要一种简易有效的测试工具,以尽可能的缩短测试时间。传统的逻辑分析仪在测试复杂的FPGA设计时,将会面临以下几点问题:1)缺少空余I/O引脚。设计中器件的选择依据设计规模而定,通常所选器件的I/O引脚数目和设计的需求是恰好匹配的。2)I/O引脚难以引出。设计者为减小电路板的面积,大都采用细间距工艺技术,在不改变PCB板布线的情况下引出I/O引脚非常困难。3)外接逻辑分析仪有改变FPGA设计中信号原来状态的可能,因此难以保证信号的正确性。4)传统的逻辑分析仪价格昂贵,将会加重设计方的经济负担。--- 伴随着
发表于 2019-12-27
使用SignalTap II逻辑分析仪调试FPGA
基于FPGA和AVR单片机的自动调谐系的设计
1 前言发射机是无线通信的重要设备之一,广泛应用于广播电视、移动通信、海洋运输及国防等领域。自动控制技术在无线通信发射领域正发挥着越来越重要的作用,发射设备的数字化逐渐趋于成熟。但是,大功率短波发射机比起中波、调频、电视发射机来说,具有变换工作频率频繁,倒频时间短;不能实现整机固态化,可靠性降低,故障率较高;工作频段范围宽,很难保证在全频段内任意频率稳定工作等特点;加之目前尚无接口标准对大功率短波发射台微机实时控制进行规范,给大功率短波发射台自动化带来困难。短波发射机的自动调谐技术正是在这种环境下产生的。本设计的自动调谐系统是基于FPGA和AVR单片机的,其调谐对象是功率为150kW,发射频率范围为3.9 26.1MHz
发表于 2019-12-26
基于FPGA和AVR单片机的自动调谐系的设计
基于FPGA的数字核脉冲分析器硬件设计解析
简单调理后,经单端转差分,由采样率为65 MHz的高速ADC 在FPGA 的控制下进行模/数转换,完成核脉冲的数字化,并通过数字核脉冲处理算法在FPGA内形成核能谱,核能谱数据可通过16 位并行接口传输至其他谱数据处理终端,也可通过LVDS/RS 485接口实现远程传输。特别需要注意的是,由于高速AD前置,调理电路应该满足宽带、高速,且电路参数能够动态调整的需要,以适应不同类型探测器输出的信号,从而更好地发挥数字化技术的优势。  3 具体硬件设计  3.1 前端电路  前端电路由单端转差分和高速ADC电路组成。差分电路由于其良好的抗共模干扰能力而应用广泛。由于调理电路输出的脉冲信号为单极性信号,若直接送入ADC,将损失一半的动态范围
发表于 2019-12-24
基于FPGA的数字核脉冲分析器硬件设计解析
小广播
夏宇闻老师专栏

你问我答FPGA设计

北京航空航天大学教授,国内最早从事复杂数字逻辑和嵌入式系统设计的专家。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 2689mr.com, Inc. All rights reserved
北京赛车Pk10微信群机器人 澳客彩票 qq等级送彩金线上娱乐 彩票大赢家 送彩金的网站有那些 mg游戏送彩金无需申请 赛车网站首存送彩金 彩票大赢家 充值送彩金活动 真人娱乐平台送彩金