继电动化之后,新能源汽车行业正向智能化领域深耕,而英伟达作为全球GPU领导者之一,其产品已在汽车领域占据统治地位,腾势N7、零跑C11、蔚来ET7、小鹏P7等国产中高端车型均搭载了英伟达芯片并成为卖点之一。 除了车机应用,智能驾驶训练对英伟达高端芯片的依赖更为明显,某智能驾驶行业人士表示,“我们的自动驾驶方案对算力需求不是很高,实际上车用的是其他厂商的自动驾驶芯片,但自动驾驶训练,我们都要放在英伟达芯片平台上进行。” 而随着大模型在汽车领域应用需求的爆发,市场对大算力高端芯片的需求将会激增。 特斯拉凭借得天独厚资源优势,早已自研7nm高算力人工智能芯片D1,并以此构建Dojo超级计算机集群,预计明年一季度将形成全球前五的算力资源,至明年底将达成100EFlops的超级算力,届时,特斯拉全自动驾驶技术将有望在Dojo支持下获得全速推进。而特斯拉也将成为在算力能力上全球唯一能与英伟达对标的主机厂。 相比特斯拉,中国新能源汽车军团虽然也是汽车智能化的先锋阵营,正处于从辅助自动驾驶向高阶自动驾驶快速进化的发展期,但在算力资源上并没有话语权,也无法绕开以英伟达为代表的高算力芯片供应商。 值此之际,当地时间10月17日,美国商务部工业和安全局(BIS)发布新规,再次恶意抬高AI芯片的入华门槛,其中,阉割版的英伟达A800、H800首当其冲,A800替代品L40S、消费级RTX4090等也在此次禁令范围内,英特尔(如GPU MAX NEXT、Gaudi2)、AMD(如MI300、MI250X、MI250、MI200、MI210、RX 7900XTX)等企业相关芯片也将受到影响,这或将导致国内包括智能驾驶产业在内的AI行业陷入算力资源告急的不利局面。其中,消费级GPU率先出现短缺现象,目前电商渠道显示RTX4090已处于缺货状态,且产品单价已从此前的1.3万元飙升至5万元。 据美国商务部部长吉娜·雷蒙多介绍,新规旨在堵住去年10月法规漏洞,以此来阻止中国AI相关产业的发展。有分析称,新规几乎堵死了后续大算力芯片通过“减配”“阉割”等方式规避法规的可能性。 供应链人士认为,“美国计划停止英伟达相关AI芯片进入中国,对国内大模型等产业直接带来负面影响,会导致国内相关AI技术及应用落后于国外企业。” 在国际高端AI芯片面临被“逼退”之际,国产GPU无疑成为最佳替代选择。近年来,在地缘政治影响下,我国本土GPU产业已取得一定发展成效,部分产品甚至可对标国际企业同类产品。那么,国内哪些GPU企业有望实现替代? 华为:昇腾910系列 该芯片发布于2019年8月,采用7nm制程工艺,半精度(FP16)算力达320 TFLOPS,整数精度(INT8)算力达到640 TOPS,华为还为其配套了自研的HCCS高速互联接口,发布时为全球算力最强、训练速度最快的AI芯片。 即便在地缘政治影响下被“雪藏”4年,其性能目前仍处于全球领先水平。在昇腾910基础上,华为又推出了昇腾910B升级版,在性能上又有较大提升,业内分析认为,昇腾910系列可以充分支撑国内的大模型应用,科大讯飞证实,华为的GPU能力已能对标英伟达A100,并基于昇腾生态推出了“飞星一号”大模型算力平台。 不过,对华为来说,作为一家直接受地缘政治冲击的企业,尖端芯片的大规模量产仍是瓶颈。供应链消息显示,华为昇腾服务器去年的销售规模超20亿元,2023年目标超70亿元。 寒武纪:思元590、思元370等 寒武纪是国内AI芯片的龙头企业之一,在云、边、端均有产品布局,2022年寒武纪披露,公司正在基于MLUarch05全新架构开发新一代云端智能训练芯片思元590。相关资料显示,该芯片将采用7nm工艺,FP32算力到80TFLops,性能接近英伟达A100。近期供应链消息称,该芯片已送样,但截至目前,寒武纪仍未公开该芯片的研发与应用进度。 除了思元590,目前寒武纪还可以提供思元100、思元270、思元290、思元370(国内首颗Chiplet AI芯片,加速卡最大算力达256TOPS)等多款云端AI芯片,据寒武纪2023年半年报披露,已成功将7nm等先进工艺下关键技术应用于云端AI芯片中。 与华为一样,寒武纪也受地缘政治影响,旗下专注于自动驾驶AI芯片研发的行歌科技近期研发受阻,据传地缘政治压力是重要影响因素之一。由于行歌科技发展遇阻,L2+自动驾驶行泊一体芯片SD5223和L4高阶自动驾驶多域融合平台SoC芯片SD5226将直接受到影响,但对思元590影响程度仍有待公司进一步披露。 壁仞科技:壁砺100P、壁砺104 壁仞科技BR100系列通用GPU芯片针对人工智能(AI)训练、推理,及科学计算等更广泛的通用计算场景开发,主要部署在大型数据中心,目前主推壁砺100P、壁砺104两款产品,均为7nm制程工艺,并创新性应用Chiplet与2.5D CoWoS封装技术,单卡互连带宽最高达448 GB/s,并支持单节点8卡全互连。 美国新规中,壁仞科技成重点关注对象,就此,壁仞科技已发布声明称,公司始终合法依规经营,将向美方有关政府部门积极申诉。 海光信息:深算一号 海光信息DCU系列产品以GPGPU架构为基础,兼容通用的“类CUDA”环境以及国际主流商业计算软件和人工智能软件。 据介绍,海光DCU主要部署在服务器集群或数据中心,为应用程序提供性能高、能效比高的算力,支撑高复杂度和高吞吐量的数据处理任务。在AIGC持续快速发展的时代背景下,海光DCU能够完整支持大模型训练,实现LLaMa、GPT、Bloom、ChatGLM、悟道、紫东太初等为代表的大模型的全面应用,与国内包括文心一言等大模型全面适配,达到国内领先水平。 根据最新披露信息,海光DCU系列产品深算一号为主要在售产品,深算二号已于Q3发布,深算三号研发进展顺利。有分析认为,海光DCU可对标英伟达A100。 地缘政治影响方面,海光信息也是受冲击对象之一,海光信息曾表示,该事项不会对公司短期内运营及财务状况产生较大不利影响,今年其前三季度净利润同比增长38.27%。 不过底层架构依赖AMD或是潜在风险之一,海光信息近期表示,公司已完成对授权技术的消化、吸收,具备了独立完成后续技术迭代和产品升级的能力。 景嘉微:JM9系列 景嘉微2014年成功开发国内首款高性能GPU芯片JM5400,又于2018年推出第二代GPU芯片JM7200,第三代产品JM9系列GPU芯片则于2021年成功研制。 目前,景嘉微的主打产品为JM7200和JM9系列,其中JM9系列已完成与欧拉开源操作系统相互兼容性测试认证,但该产品尚不能满足AI计算、ChatGPT等领域的应用需求,有分析称,景嘉微JM9271可对标的是英伟达GTX 1080。 今年年中,景嘉微计划募集42亿元用于高性能通用GPU芯片和通用GPU先进架构研发项目,市场分析认为,这是景嘉微进军高端大算力芯片的信号。另外,景嘉微也是受地缘政治影响的企业之一。 天数智芯:天垓100、智铠100 天数智芯分别于2021年、2022年推出天垓100、智铠100量产产品,据介绍,天数智芯的底层硬件、上层软件均为独立自主开发,其GPU IP具有完全自主知识产权。 其中,天垓100芯片采用7纳米制程及2.5D COWOS封装技术,容纳240亿晶体管,支持FP32、FP16、INT32/16/8等多精度数据混合训练,可提供37 TFLOPS@FP32、147 TFLOPS@FP16/BF16的峰值算力,目前已在智源研究院、百度、鹏程实验室等单位参与百亿级参数大模型训练或兼容性测试,该产品的主攻方向包括安防、教育、金融、交通、能源、医疗等领域。 智铠100主打提供云边协同、训推组合的完整通用算力系统全方案,车路协同智能中心是其重要目标市场之一,基于该芯片的产品卡可提供最高384TOPS@int8、96TFlops@FP16、24TFlops@FP32的峰值算力,也是天数智芯对标英伟达的重要产品。 百度昆仑芯:第二代/第三代AI芯片 百度旗下昆仑芯第二代AI芯片于2021年8月实现量产,采用7nm制程,搭载自研的第二代XPU架构,相比第一代性能提升2-3倍,适用云、端、边等领域,未来主要聚焦在自动驾驶、智能交通、智能助手等场景。 据了解,昆仑芯AI芯片除了拥有自研XPU架构及多项自主设计,还与飞腾等多款国产通用处理器、麒麟等多款国产操作系统以及百度自研的飞桨深度学习框架完成了端到端的适配。 另外,昆仑芯第三代产品已在研发当中,百度CEO李彦宏年中透露,该产品将在2024年年初上市。 今年一季度,昆仑芯获全球最大新能源汽车制造商比亚迪出资入股,股权占比为0.33%,加快后者智能化下半场布局。 燧原科技:邃思2.0/2.5 燧原科技成立于2018年3月,至2021年就发布了第二款12nm芯片邃思2.0,据介绍,该芯片单精度FP32算力为40TFLOPS,单精度张量TF32算力为160TFLOPS,整数精度INT8算力为320TOPS,并基于该芯片推出了T20/T21训练加速卡,目标市场覆盖智能交互、自动驾驶等。 今年9月28日,燧原科技在D轮融资中获20亿元投资,累计融资约52亿元。据了解,目前燧原科技在研发新一代推理芯片邃思2.5。 在自动驾驶领域,目前燧原科技的落地项目仍有待进一步推进,其已于2019年与上海国际汽车城达成合作意向,至今年3月,第二代训练产品也完成百度飞桨I级兼容性测试,另外,能否通过合作方弘信电子进入比亚迪等主机厂供应链仍有待进一步发掘。 摩尔线程:春晓 截至目前,摩尔线程已推出苏堤、春晓等多颗GPU芯片,其中春晓是其第二颗产品,发布于2022年11月,集成220亿颗晶体管,内置MUSA架构通用计算核心以及张量计算核心,可以支持FP32、FP16和INT8等计算精度。 不过,摩尔线程GPU相关产品主要面向消费级领域,如基于春晓打造的MTT S80是首款面向游戏玩家打造的国潮显卡,对标的是英伟达消费级产品。 笔者在盘点中发现,摩尔线程已在布局自动驾驶,其此前的招聘岗位中,含有自动驾驶算法专家及相关实习生岗位招聘,预计正在研制面向自动驾驶领域相关产品。 在新一轮的地缘政治影响中,摩尔线程多家主体公司位列其中,市场分析称,摩尔线程顶级AI计算卡与英伟达差距较小,是此次受影响的重要原因。为此,摩尔线程已就不公正待遇发出强烈反对声明。 沐曦公司:曦思N系列、曦云C系列 目前沐曦公司已发布有曦思N系列、曦云C系列和曦彩G系列3款产品,曦彩G系列主要用于消费领域,曦思N系列、曦云C系列面向的场景基本相同,主要包括自动驾驶、智慧城市、智能视频处理、自然语言处理、推荐系统、工业视觉、边缘计算等。 其中,曦思N100已量产,内置MXN100异构GPGPU处理器和HBM2E显存,具备出色的推理性能,单卡算力达到160 TOPS(INT8)和80 TFLOPS(FP16);曦云C500单卡算力高达30TFlops FP32,高带宽显存达64GB HBM2E,带宽达1.8TB/s,截至今年6月仍处于流片状态,将于今年年底量产。 目前,沐曦公司在自动驾驶领域的应用仍在探索之中,已与清华大学苏州汽车研究院、芯驰半导体等合作伙伴尝试落地创新。 龙芯中科:GPGPU芯片 龙芯中科第一代GPU核LG100已经在7A2000和2K2000中应用,第二代龙芯GPU核LG200研制工作正在展开,支持图形加速、科学计算、AI计算。支持包括OpenGL、OpenCL、Vulkan等图形API和计算API。目前公司3A5000产品与自研桥片7A2000配套出货,7A2000可以起到独立显存的作用。 另外,兼顾显卡和计算加速卡功能GPGPU芯片已经完成相关IP设计,正在验证优化过程中,计划于2024年下半年流片,预计2025年上市。与英伟达产品相比,龙芯中科GPGPU主要与自研CPU配套,以形成系统及成本优势。 目前看,龙芯中科基于LG100开发的GPU相关产品主要面向桌面与终端类、工控互联网应用领域,在汽车领域,目前布局路线尚未清晰,未来不排除会与其车用MCU一起上车的可能。另外,龙芯中科也受到地缘政治影响。 瀚博半导体:SG 100 2023年7月,瀚博半导体正式发布第二代云端GPU SG 100,这是一款集渲染、AI、视频于一体的全功能GPU芯片,采用7nm制程工艺。 基于该芯片打造的LLM大模型AI加速卡VA1L具备200 TOPS INT8/72 TFLOPS FP16算力,并支持ChatGPT、LLaMA、Stable Diffusion等主流AIGC网络模型;另一加速卡产品VA12则具备512 TOPS的INT 8的算力和160 TFLOPS的FP16算力。 面向智慧交通的主力产品为载天VE1S加速卡,载天VS1000、载天VE1M支持包括车路协同在内的应用场景。不过目前该公司仍在构建生态,未来如何在汽车领域落地仍有待进一步发掘。 芯动科技:风华3号 芯动科技已实现从55nm到3nm工艺高速混合电路IP核全覆盖,且所有IP均为自主研发,支持为自动驾驶、智能座舱、高性能计算等领域提供一站式智能芯片定制服务。 目前芯动科技推出有“风华1号”4K级服务器显卡、“风华2号”4K级四屏桌面显卡,不过目前这两款产品主要聚焦消费级桌面应用,正在开发的“风华3号”也主要面向消费娱乐市场,但有望覆盖数据中心等场景。 小结:制造及IP仍是短板 GPU作为推进人工智能技术快速发展的坚实底座,随着自动驾驶、大模型等创新应用的爆发,其重要性愈发凸显。不过目前在GPU领域,全球主要由英伟达、AMD等少数公司主导,特别是英伟达,已形成一家独大局面。 某业内人士表示,“都说国内GPU服务器市场英伟达占有率为95%,但到目前,我没有看到另外那5%的市场在哪里。” 借助新兴产业以及国内对半导体产业的大力扶持契机,近年来国内涌现了一批优秀的GPU企业,华为、寒武纪、壁仞科技、海光信息的部分产品甚至可对标国际尖端产品,有望打破国际垄断,更多GPU企业也在蓄力当中,加速云、边、端的AI底座覆盖。 不过,国内的GPU企业基本为IC设计公司,在本土晶圆制造短板下,地缘政治始终是最大不稳定因素,技术领先的几家国内公司均已受到不同程度冲击。而美国新规的出台,将使得国内包括自动驾驶在内的AI产业链,不仅面临着国际尖端芯片无法进来,本土的高端产品在制造端也受到掣肘的不利局面。 另外,本土GPU企业对国际IP产业链的依赖度还较大,盘点中笔者发现,部分技术领先的国产GPU,背后均有国际IP公司的身影。未来本土企业要实现自主创新,相关IP储备至关重要。 (校对/占旭亮) (责任编辑:) |