分享好友 最新资讯首页 最新资讯分类 切换频道
FPGA/ASIC在AI推理加速中的研究
2025-03-02 18:00

今天我们再来看一篇论文。

随着现在AI的快速发展,使用FPGA和ASIC进行推理加速的研究也越来越多,从目前的市场来说,有些公司已经有了专门做推理的ASIC,像Groq的LPU,专门针对大语言模型的推理做了优化,因此相比GPU这种通过计算平台,功耗更低、延迟更小,但应用场景比较单一,在图像/视频方向就没有优势了。

整个AI的工业界,使用FPGA的目前还比较少,但学术界其实一直在用FPGA做很多的尝试,比如通过简化矩阵运算,使FPGA可以更好的发挥其优势。

今天看的这篇论文,是一篇关于FPGA和ASIC在大模型推理加速和优化方向的综述,我们看下目前的研究进展。

图片

Transformer模型在自然语言处理(NLP)、计算机视觉和语音识别等多个领域都取得了显著的成就。特别是,这些模型在机器翻译、文本分类、图像分类和目标检测等任务中表现出色。Transformer模型需要比传统神经网络(如循环神经网络、长短期记忆网络和卷积神经网络)更多的参数和计算操作。例如,Transformer-B模型包含1.1亿参数,执行21.78亿次浮点运算,而Vision Transformer (ViT)-B模型包含8600万参数,执行16.85亿次浮点运算。

GPU的局限性

FPGA和ASIC的优势

该论文对FPGA和ASIC基于Transformer的加速器的最新发展进行全面回顾,探索适合于FPGA/ASIC的模型压缩技术,以及对最新的FPGA和ASIC加速器的性能进行比较。

论文中这部分内容比较长,对Transformer模型和Vision Transformer (ViT)模型的进行了详细介绍,包括它们的基本组件、不同的模型变体以及它们在计算上的特点,包含了很多理论部分,有兴趣的读者可以看原文,我只总结一下大概的内容。

Transformer模型主要由编码器(Encoder)和解码器(Decoder)组成。编码器处理输入序列生成上下文向量,而解码器使用编码器的上下文向量和前一步的输出标记来生成下一步的标记。编码器和解码器的核心操作模块包括多头自注意力(MHSA)和前馈网络(FFN)。通过MHSA,Transformer能够训练 token 之间的全局上下文信息,从而实现高精度。基于Transformer架构的也有不同的模型,如BERT、GPT等,他们的预训练和微调方法也均有不同。这些模型在不同的NLP任务中表现出色,但大型模型如GPT-3由于参数众多,难以在FPGA或ASIC上实现。

Vision Transformer (ViT)是针对计算机视觉任务提出的Transformer模型,主要用于图像分类。与原始Transformer架构不同,ViT只使用编码器,并且在编码器之前进行LayerNorm操作。ViT通过将输入图像分割成固定大小的patches,然后通过线性投影生成Transformer输入tokens。ViT的编码器操作和图像分类任务的执行方式也有详细说明。基于ViT架构也有多种模型变体,如DeiT、Swin Transformer和TNT,这些模型通过不同的方式改进了ViT,例如通过知识蒸馏、层次结构和窗口机制、以及改进的patch嵌入方法来提高性能。

要想在FPGA/ASIC上应用Transformer,肯定需要对模型进行改进,要让算法对硬件实现更加的友好。目前有常用的方式:

在这一节,论文中详细探讨了针对FPGA和ASIC平台的Transformer模型加速器的各种优化技术。其实这一节的内容跟上一节是一个道理,都是在讲如何让大模型算法更好的适应FPGA/ASIC的平台。论文中也是花了很大的篇幅对每一个优化方法做了详细分析,这里我也只是总结一下论文中使用到的优化方法,具体的内容还是建议有兴趣的读者看原文。

这些优化技术都可以帮助提高加速器的性能,降低功耗,并实现更高效的Transformer模型推理。

这一部分主要是对基于FPGA和ASIC的Transformer加速器的性能进行了分析和比较。

FPGA加速器性能比较

下面这个表,展示了不同的加速器模型使用在数据格式、工作频率、功耗、吞吐量(GOPS)、推理速度(FPS)以及所使用的FPGA资源(如DSP、LUT、FF和BRAM)的统计。

图片

对于基于FPGA的加速器,分析的这些指标都是FPGA芯片的关键资源。

可以看到,这些模型其实都有各自的优势和劣势,某些设计可能在吞吐量上有优势,而其他设计可能在能效比或推理速度上有优势。

ASIC加速器性能比较

下面这个表是不同模式在数据格式、工作频率、制造工艺、芯片面积、功耗、吞吐量以及片上内存大小的统计。

图片

对于ASIC加速器,性能比较则侧重于诸如芯片面积和技术节点等ASIC设计的关键指标。这些因素影响着ASIC芯片的成本、能耗以及计算效率。

在前面的几节中,论文中调研了不同模型在FPGA/ASIC上的性能比较,本节作者提出了当前FPGA和ASIC基Transformer加速器研究的一些潜在方向和未来趋势。

最新文章
小孩掰断奔驰车标,车主索赔,家长:孩子还小……
4月6日,宁夏银川市永宁县幸福小镇居民吴某准备驾车出行时,发现自己奔驰车的立标被掰断掉落在一旁,十分气愤和心疼,立即报了警
5.3 高清摄像头拍照结果上传失败的情况如何解决?手机usb外置摄像头「5.3 高清摄像头拍照结果上传失败的情况如何解决?」
分类名称说明控件方法start()开始取得摄像头画面数据并显示在控件中。控件方法cap()拍照并停止摄像头动态画面捕捉控件方法stop()
手机卡取出全攻略:简单步骤与关键注意事项揭秘手机卡怎么拿出来「手机卡取出全攻略:简单步骤与关键注意事项揭秘」
在现代生活中,智能手机已经成为我们生活中不可或缺的伙伴。然而,许多人在更换手机时发现,手机卡的取出似乎并不是一件简单的事
任正非:我家人都用苹果手机 孟晚舟被捕前就想辞职苹果手机创始人「任正非:我家人都用苹果手机 孟晚舟被捕前就想辞职」
在深圳华为总部,任正非罕见地接受了CTV新闻主播和高级编辑Lisa LaFlamme长达两小时的采访。这是任正非第一次接受加拿大媒体的采
全面解析手机低端处理器天梯图:选购指南与性能对比分析手机性能对比「全面解析手机低端处理器天梯图:选购指南与性能对比分析」
简介:在智能手机市场中,低端处理器往往被认为是性能较弱的选择,但它们在价格和能效方面具有显著优势。本文将通过全面解析手机
浙商银行积极开展股票回购增持贷款业务支持资本市场发展
  记者从获悉,截至4月9日,浙商银行已与近60家上市公司及股东达成股票回购增持贷款意向合作,储备拟回购增持金额超80亿元,授
【我与iQOO的故事】五周年快乐!vivo是什么牌子的手机「【我与iQOO的故事】五周年快乐!」
在这之后iQOO不断推出了多款备受用户喜爱的手机产品,如iQOO Neo系列、iQOO 3系列等。我也给我的室友推荐了iQOO,其中两个室友都
市三女中的邬达克建筑变身音乐殿堂,手风琴大师带你“环游世界”!
4月4日下午,“世界音乐之旅——手风琴陪你环游世界”专家讲演音乐会在上海市第三女子中学举办。由邬达克设计的百年建筑景莲堂化
乐道总裁艾铁成宣布离开,虽未实现交付目标,但兑现离职承诺
3月29日,NBA灰熊队官方宣布与主教练泰勒-詹金斯分道扬镳,让整个联盟感到震惊。季后赛来临之际,在整体实力较强的西部排名第五
荣昌卤鹅火爆出圈,当地商户:不会涨价,更不会降低品质
近日,全球知名网红“甲亢哥”中国行期间,荣昌大叔林江在成都、重庆、深圳、香港和长沙五座城市追着“甲亢哥”投喂美食,其中多