产品详细
在考虑互联损失的情况下,Chatgpt需要一万张A100作为算力基础,算力的硬件投资规模达到10亿人民币。
国内大模型与国外的主要差距是算力层面,没有算力基础,后面算法等发展都没有办法进行大模型应用场景会率先爆发于:工具链层面,如ChatGPT和Office产品结合,提高交互和工作效率;语音交互层面,如智能音箱、智能座舱和 智能家居等。
国内AI芯片厂商格局:一梯队,有成熟产品、批量出货的企业,包括寒武纪、华为海思、百度昆仑芯、燧原科技等;二梯队,以AI芯片起家的壁 仞科技、天数智心、摩尔线程、沐曦等;三梯队,如海光、景嘉微等
国内AI芯片与A100的差距:已经批量生产的产品,大多都是A100的上一代;各公司正在研发的相关这类的产品,如昆仑芯三代、思远590、燧思3.0 等,都是对标A100,但由于“实体清单”的限制以及研发水平的原因,都还没有推到市场
寒武纪思元590与英伟达的差距:寒武纪其实是ASIC架构,劣势是通用性会比较差,优势是某些特定应用场景下,算力能做到比GPU更 高;百度内部的测试结果,590性能接近A100 90%的性能;590基本支持主流的模型,综合性能接近A100 80%的水平
英伟达A800和H800的出货量预期:训练芯片,国内将有近200亿RMB的采购规模;推理芯片,预计采购金额达100亿RMB;国内对英伟达总 的采购需求约为300亿RMB。
目前来说对训练算力需求非常高,ChatGPT的公开多个方面数据显示它的整个训练算力消耗非常 大,达到了3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),换算成英伟达A100芯片,它单卡算力相当于0.6P的算力,理想情况 下总共需要大概6000张,在考虑互联损失的情况下,需要一万张A100作为算力基础。
在A100芯片10万人民币/张的情况下,算力的硬件投资规 模达到10亿人民币。而整个的数据中心还需要推理算力以及服务器等,规模应该在100亿人民币以上。
具体包括在算力,互联等方面 以往大多都是数据中心,超算中心以及各大网络公司的云计算中心会有相关的算力基础设施需求。
训练端:训练算力相关设备主要是英伟达的A100和H100,推理算力主要是英伟达T4卡。ChatGPT的发布使得算力需求增加了,以前算力的商业 应用并没有特别多,主要是推理端像图像识别、语音识别等。大模型的爆发会导致训练的应用场景慢慢的变多,对训练算力的需求会大幅度增长,增长 幅度能达到10倍甚至100倍。
如果对标的模型是ChatGPT,那是需要这样的硬件需求的。但百度文心一言未达到这个芯片规模,训练算力没有达到ChatGPT的水平,尤其是在上下文互动和逻辑上有较大缺陷。
国内目前大模型主要是算力层面和国外差距比较大,这也是制约国内大模型发 展的客观因素,没有算力基础,后面算法等发展都无法进行。
2022年美国限制英伟达和AMD向国内出售高性能计算芯片,国内互联网大公司意识到风险,去找英伟达购买。但因为从下单到拿货的周期较长,国内互联网厂商的优先级较低,国内互联网大公司买到的A100以及H100芯片数量是比较有限的。
主要差距是互联带宽的下降。A800的互联带宽从A100的600GB/S下降到400GB/S,H800的互联带宽从H100的900GB/S下降到450GB/S。本身单卡的算力不变,但是集群后,卡间互联的带宽会限制整个集群的算力规模。
一部分是已经批量生产的产品,大多都是A100的上一代,比如寒武纪的思元290、百度的昆仑芯二代、燧原科技的燧思2.0的算力水平都落后于 A100一代。
还有各公司正在研发的相关这类的产品,比如昆仑芯三代、思远590、燧思3.0等,这一些产品都是对标A100,但由于“实体清单”的限制以及研发水平的 原因,这一些产品都还没有推到市场。华为的昇腾910芯片,也是受限于公司被制裁,没有大规模的出货以及销售,可能在政府的计算中心有所使用,但对商用客户端帮助有限。
首先是算力芯片,包括英伟达的A100和H100,以及寒武纪、昆仑芯、燧原、华为海思、海光、沐曦以及摩尔线程。如果国内的产品能去替代英 伟达的产品,会是一个非常大的机会。
经历制裁后,国内的大型互联网公司在采购相关芯片时,目前还是会购买英伟达,但应该也会有相关的国产化替代方案。从生产层面看,还需要高带宽内存颗粒,目前国内的合肥长鑫和长江存储都还做不了,主要是国外的三星、美光和海力士三家企业。产业链上,会带动先进封装相关公司,未来国内芯片厂商会在国内的封装厂做先进封装。 除了算力芯片,数据中心建设也需要CPU服务器,会带动国内提供大型服务器的厂商,比如浪潮信息、中科曙光等,以及光模块、调节芯片和散热技术,都会有相关需求。
Q:计算芯片中除了GPU芯片,FPGA芯片、专用芯片ASIC发挥什么作用?
高性能计算芯片不止GPU这个处理架构,比如像寒武纪的ASIC和GPU是同样的应用场景,只是技术架构不一样。比如百度的昆仑芯一代,是XPU-K(自研)的架构。因此算力芯片,不光只有GPU,也包含ASIC、FPGA芯片。
Q:在美国制裁的背景下,国内厂商怎么去替代英伟达的A100,通过什么途径?
目前尤其是在制程工艺的限制,美国2022年10月份的政策限制是互联带宽超过600G,算力超过600T的产品不可以使用台积电的先进代工工艺。国内的产品不能超过A100的规格,否则不能使用7nm或者5nm的生产的基本工艺。目前国内有7nm产品的只有中芯国际,从成熟度和产品产能上都和台积电有差距。但即使有差距,国内的公司也会陆续通过中芯国际的生产的基本工艺 去生产相关的芯片。虽然目前工艺限制在7nm,但我们大家可以通过chiplet等先进的封装工艺将多个7nm芯片高速互联,实现算力的提升。
目前华为、寒武纪、海光已在“实体清单”里面,这些公司如果要生产的话,要不就得找中芯国际;要不就得通过类似代理形式或其他渠道找台积电 生产。但后一种方法要面临台积电的审查,但台积电目前整个产线的产能利用率很低,只有约50%,应该不会像之前管的那么严,如果提交的合规报告 或材料符合台积电的要求,比如600+600的审核要求,终端应用场景也不涉及如军工等敏感领域的话,台积电也是能够通过代理方式给这些公司生产的。
我估计目前海光、寒武纪可能都是通过这种途径去实现生产的;华为因为本身目标太大,如果量不大的话应该可以,量特别大的话容易被发现。
变化大概多大?ChatGPT发布后,首先微软方面肯定是加买了A100和H100,尤其是微软现在主要购买方向是向H100升级,主要买的是H100。
国内公司受限于制裁,应该是不能买A100的,A800推出后国内公司应该给了英伟达不少订单。但A800因为还要做一些带宽的限制和更改,所以目前还没有批量出到国内,仍需一定时间,但我预计应该很快就会陆续供给国内。
我认为今年英伟达的数据中心业务应该会有一个比较大的增长。因为这些企业都会有一些战略性的备货,如果按照正常节奏买的话,应该不会买这 么多。对于ChatGPT带起的热潮,国内企业可能担心以后会买不到,因此会按2-3倍的量去备货。
国内真正能够做大模型或者有实力去投资大模型的大型互联网厂商,他们不会去租英伟达的超级计算服务,因为没有人愿意把自己的数据放在别人的数据中心里,从数据安全的角度讲,是一个非常大的风险。尤其是像百度、阿里,他们掌握着国内用户一些比较比较敏感的数据,如搜索、购物习惯等。这个比较类似于滴滴,如果这些公司把这些数据弄到英伟达的服务器上去跑的话,这个风险我认为他们应该承担不了,滴滴被罚已有先例。
所以我认为从国内来讲,英伟达提供的计算服务,国内客户应该没有什么会去用的,可能一些本身不涉及敏感数据的客户可能会去尝试,但能做 ChatGPT或文心一言这种规模的企业很少会用英伟达的租赁服务或超级计算服务。
国外客户可能会受益,因为一些小规模的客户没有能力建ChatGPT规模的算力中心,他们能够最终靠租赁方式使用英伟达的超算中心作为自己模型 的基础设施设施去实现自己模型的运行。
Q:之前有说法说英伟达超级计算服务可通过阿里云、腾讯云做接口提供给国内企业用户,这是否意味着国内承担不起大算力成本的的中小企业会考虑租用英伟达的超级计算服务?
如果能把数据安全层面的问题解决,至少从数据安全的角度讲,如果国家层面的审核通过,国内也想做大模型的小型企业通过租云服务平台去推动自己的模型。
英伟达的主要目的不是想替代,发布时提出的目标是要把台积电4万台做光刻用的CPU全换成英伟达的超级光刻计算机。我认为GPU是取代不了CPU的,因为本身两者的运行是不一样的,光刻领域很多是运算的东西,可能GPU有自己的优势。但CPU本身也有控制、调度、流水线的进程操作,能用这么多年有它自己的应用场景和优势。
GPU其实擅长计算,并不擅长去做控制、调度的事情。英伟达在GPU里做类似于ARM的CPU去替代,但我认为在应用场景等各方面没那么容易。
比如现在企业服务器市场,英特尔和AMD份额稳定,英伟达想要踏足还是有很大的难度,也有一些技术障碍。可能台积电这种特定场景可以替代,但未来想把CPU整个层面上用GPU替代没有那么简单。
比如做整机的供应商,浪潮集团也被加入限制名单他们不受限制。因为中国政府层面对这些外企目前还没有任何的限制政策,英伟达在国内份额和产业情况应该也带动了不少的先进制造和就业。我认为英伟达跟国内做整机的和架构的供应商,目前都合作都正常,而且英伟达后续应该还有更多订单给到这些供应商。只是做好的高性能计算芯片受限制,不卖给或者降规格卖给国内企业。这些限制主要还是来自于美国政府层面,供应层面应该没有问题。一旦上了实体清单就没办法。因为不管是英伟达还是任何的美国企业都不能跟你做生意。如果他跟你有贸易来往,美国政府就可以对他进行制裁。这个限制范围很大,任何使用美国技术的企业都不能跟你有贸易来往,比如现在不仅英伟达不能跟浪潮之间有贸易来往,甚至像韩国、台湾的企业都受约束。
Q:国内来看,您认为哪些领域大模型会率先爆发应用场景?对算力产业链有什么影响?
目前很多公司宣布接入文心一言,ChatGPT在国内国外的应用场景也都陆续在落地。
1)工具链层面:大模型可以做很多事情,比如ChatGPT和Office产品的结合,以前很多东西需要人去写公式、计算,但是现在ChatGPT接入后 Office会变得非常灵活,通过office做交互、实现的话,工作效率会有一个非常大幅的提高。
2)语音交互层面:智能交互,如智能音箱、智能座舱,未来肯定会有一个大的提升,现在汽车里用的小度等,其实语言理解能力是很差的,想要交互是很难的,而且体验也非常差;大模型接入后,语音交互层面会做得很好,比如我们在汽车智能座舱里发一个指令,他的理解、执行他就会非 常精确。包括我们用的智能音箱、智能家居等,理解、执行也会比较到位。
第一梯队:有成熟产品、批量出货的企业,主要包括寒武纪、华为海思、百度昆仑芯、燧原科技,这四家有2-3代更多的产品,技术能力、软件能 力都有一定积累。
第二梯队:包括壁仞科技,它去年发布的产品规格很高,但主要还是停留在纸面数据,实测数据、实际性能方面业界和第三方评测机构评价没有那么高,它本身的性能是不及A100的,而且软件层面也还有很多工作要做,目前它只是做了一个软件的雏形,从使用角度来讲离成熟的生态软件、规模化的出货、客户端的个适配还有很长的路要走,现在它也面临着制裁问题、实体清单问题,对于这样的初创企业是生存层面的问题。像天数智心、摩尔线程、沐曦也都陆续有产品推出,但技术能力不及壁仞,只是停留在推理层面,不像第一梯队的企业有更成熟的产品经验,但这几集也都 至少是以做AI芯片起家的,专注于该领域。
第三梯队:包括海光、景嘉微,他们以前不是做GPU的,现在过来做GPU。景嘉微也是做GPU芯片的,但在商用端没有多少使用,实际产品性能 不是特别清楚。海光是做X86CPU起家的,GPU的技术能力还有待市场的认可和检验。
Q:训练芯片是1万张A100的话,推理芯片需要多少?如果它跟日活访问次数等有相关性的话,中长期来看推理芯片的情况?
虽然说大模型训练的算力需求量非常大,但是产能模型训练好了之后,实际投入到使用中或是在跟终端的互动中,其实也是需要消耗很多的推理算力,尤其是在访问量大的时候。所以其实不管是微软的智能计算中心,还是百度的智能计算中心,我认为都有相当规模的推理算力。
通常数据中心或者超算中心里都会配备推理算力,一般算力的规模或者说数量的规模没有特别少的,尤其是数量。比如我买1万张A100的卡,可能还要配几千张的T4推理卡,当然英伟达现在最新出的L4推理卡也会配在数据中心里,但是目前来看它的规模应该没有训练的算力规模大,但随着访问量或交互量上升,我认为推理算力需求量是不小的。当然推理层面CPU本身也是可以分担一些,尤其是数据中心里用的这种大型企业级 CPU,本身是可以做一些推理的事情,但是毕竟不是专业做运算的,所以我认为肯定还是需要大量的推理卡支持。我认为可能规模比较大或后期访 问量特别大的数据中心,推理卡的数量可能会非常接近训练卡的数量。当然因为推理卡本身的价值、算力没有训练卡大,所以从市值规模看,应该 还是没有训练卡的市场规模大。
从技术架构或初级架构角度看,寒武纪产品主要还是ASIC架构,ASIC的劣势在于通用性会比较差,优势在于如果某些特定应用场景它把算法固化到硬件里边去,算力是可以做到比GPU更高的。这个特点也决定了它的最终的性能特点,所以我们看到公开信息或一些百度内部的测试结果,寒武纪590在做大模型的训练跑transformer、BERT等大语言模型时,性能非常接近A100,接近90%的性能。但如果跑20-30个主流的模型,我们 会看到可能有些模型如果在算法层面没有做特别的固化优化的线%的性能。综合来看,基本上主流的模型590都是支持的,综合性也接近A100 80%的水平。
目前不管是国内芯片公司,还是英伟达的AI的云端、推理端架构芯片,内部都用了ARM的CPU去做控制,因为AI芯片的内部,除了ASIC或GPU芯 片的内核以外,一般都会配一个ARM的CPU去做AI芯片、处理器层面或是内部的交互,或者做一些控制层面的事情。所以CPU其实对AI芯片来说也 是一个非常重要的东西。
如果我们后面国内AI芯片企业拿不到ARM的授权,一是已经授权的东西还是可以继续用,比如华为、百度、寒武纪已经拿到了A78的授权,但是没有了后续的支持,无法用最新的ARM的架构;二是目前国内同ARM竞争的RISC-V发展的也挺好,它是一个开源生态,如果后续真的国内芯片企业 用不了ARM的话,对它是一个好机会,在性能层面它其实没有比ARM差多少,主要问题在于生态没有像ARM那么完善,如果有更多的开发者去起 来的话,可能生态会慢慢完善起来。
Q:如何看待ARM打算改变授权费模式,从原本的按照芯片价格1-3%收取费用改为按照整机价格收取费用?
按整机价格收取的话可以多要点钱,我们做芯片设计的跟这些IP公司打交道比较多,他们对我们,尤其是国内芯片企业,不光收费贵,而且审计等非常严格。很多时候一次性授权要收取,后面卖出的单颗芯片还要在收取一定比例的费用,所以其实是非常贵的。
用这种商用IP,尤其是ARM,用这些国外的大型IP厂商其实代价都是非常大,对芯片公司尤其初创企业来说,花费的成本非常高。但我们还没有自研能力去做出来比较好的IP,很多比较简单的接口IP如走字眼的高速接口,华为、寒武纪等都可以自己做,但ARM目前确实是比较难做。如果ARM还要再后面再涨价的话,会有更多的芯片设计公司转向RISC-V,其生态会慢慢发展壮大,挑战ARM生态。
其实ARM一家独大已经这么多年了,我觉得应该有一个像RISC-V这样的竞争对手,不然在国内乃至全球大家都不得不用ARM。这种有点像垄断,像高通之前因收取整个手机的专利授权费用被中国政府罚款后就把收费政策改了,如果ARM这么弄的话,可能我们也会有一些扶持或者制裁措施。所以ARM授权模式的改变不一定能成功,而且如果推行的话有可能刺激RISC-V生态壮大。对于芯片公司的研发者或设计者,转去RISC-V生态也是一个好的解决方案,只是要花一些学习成本。
目前国内RISC-V占有率较低,但增长很快,因此未来会有许多企业去做RISC-V产品。比如,阿里提供基于RISC-V架构的平台及生态服务。寒武纪、华为已经开始使用RISC-V架构。
边缘侧AI芯片大多采用ARM架构,因此在专利授权的模式改变和垄断的情况的发生下,会有更多企业去尝试使用RISC-V处理器架构,从而促进整个生态的增长。叠加国内很多企业上了美国“实体清单”,ARM停止服务,促进了RISC-V等开源架构的应用增长。
海光训练产品的算力规模不足以支持做数据中心。海光DCU Z100训练算力较小,不到100TFLOPS,只适合一些推理场景,不足以支持大模型的训练,因此没能力去替代寒武纪、华为和英伟达的产品。
目前来看海光缺少大算力技术基础。第一,海光的X86授权CPU技术积累,对做GPU没有帮助。第二,海光的AMD授权软件生态也不足以在大算力的超算领域和英伟达的扩大生态竞争。因此,要做大算力产品还有很长的路要走。
Q:国内大厂(华为、百度、腾讯等)的大模型和OpenAI大模型的算力区别?
目前国内,已经发布的大模型产品只有百度文心一言,在国内处于AI一哥的地位,占据了先机。但是从试用结果看,和ChatGPT、GPT4的相差还是很大。百度的算力、硬件、算法模型层面都没有做到ChatGPT的水平。
具体从算力层面看:第一,算力基础设施规模小于微软的规模水平,因此训练精度水平较低。第二,尽管从国内的角度看,百度对AI算法的投资最多,研发时间最长,技术能力最强,但做AI大模型的时间还是相对较短,因此还需要后续的优化。
其他几家大型互联网企业在大模型领域应该都有提前布局,但由于在OpenAI做出产品之前,这个领域一直没有商机和盈利,因此大家都没有落地该应用,没有百度重视这个领域。ChatGPT火了之后,很多互联网企业才加速了推动自己的产品。
阿里、头条、360、腾讯等大厂可能陆续会推出产品,但做的也会比较仓促,积累时间不够。
百度、腾讯、阿里等,肯定基础算力的采购需求,叠加政策限制和国产替代,互联网大厂会逐步考虑国产供应商。
昆仑芯:目前百度已有两款产品,第一,2018年下半年发布昆仑芯一代产品,基于三星14nm,可以做训练和推理,因此主要用于推理。第二, 2021年发布昆仑芯二代产品,搭载GDDR6高性显存,支持256TOPS(INT8)算力,和V100性能差不多,可以做训练和推理。两个产品都在百度云服务器上部署。第三代昆仑芯产品,预计明年上半年发布,目标达到A100性能。
寒武纪:相对来说是国内做的比较早的厂商。2021年发布的思元370,是训练和推理一体的产品,推理算力为256TOPS(INT8),训练算力为 128TFLOPS。出货量在寒武纪云端产品和商用客户端,属于相对较大的。比如,在阿里云、浪潮、曙光等服务器厂商和科大讯飞等AI算法层面的 公司都有批量出货。训练端产品主要是2021年发布的思元290和还未发布的思元590。思元290采用7nm台积电制程工艺,训练算力达256TFLOPS,比英伟达的V100和昆仑芯二代都要强一些,但还不足A100的水平。玄思1000加速器搭载4块思元290芯片,整机算力达到1P。下一代产品思元590,规模能达到A100水平,性能将达到预期。再下一代产品,计划对标H100,但要先解决供应的问题,因此项目节奏会推后。
国内市场:国内可以规模化买H800和A800的产品的公司最多十几家,主要系大型互联网企业的采购。浪潮、曙光等应该是无法购买。估计一块芯片价格10万人民币,叠加企业要做ChatGPT这种大模型需要芯片1万张起步,能拿出10亿规模的现金流,其实是大型的互联网企业。个人预期各企业将会有囤货需求,按每家企业2万张的平均需求来计算,在训练方面,国内将会有接近200亿人民币的采购规模。在推理芯片方面,预计采购量将是100亿。总的来看,整个国内对英伟达的采购需求大概为300亿人民币。
海外市场:海外需求偏市场化,不太需要提前存货。预计今年也有一个更大规模增长。微软、谷歌和Bing等大企业对大模型的采购需求将增加英伟达芯片的出货量,预期今年将增长30%-50%。
目前AI芯片或AI加速卡在计算算力的时候,一般都会采用两个数据格式:INT8(二进制的8位的整型数据)和FP16(16位浮点数)。训练的产品主要 处理是浮点数,推理算力主要处理整型数据。
推理端:一般标记INT8的算力。分类检索识别、语音识别、文本识别等推理场景主要处理的数据格式是8位整型数据。1TOPS的算力指1秒钟做1万亿次INT8整型数据运算。
训练端:业界主流标记为FP16。因为训练对模型的要求越高,对数据运算的要求也更高更精准。FP16指1秒钟做多少次16位浮点数的运算, 1TFLOPS表示1秒钟做一万亿次浮点数的操作运算。
(1)整型INT8的算力是128T,则换算成INT16时,算力会减半到64T。
(2)浮点数的关系不是减半,浮点数位数更大,算力 下降的更快。例如,英伟达A100的16位的浮点数算力是624T,32位浮点数的算力只有40T。
传统的数据中心的不同之处在于,在AI常见的Infini Band fat tree 结构下,使用的交换机数量更多,且因每个节点上行下行的端口数完全一致。
基于英伟达方案,一个 SuperPOD 170个交换机,每个交换机有 40 个端口,最简单方式上下各70 台服务器,依次端口互联(上下 1:1 连接)对应的线 根,考虑实际部署情况上调至 4000 根线缆需求。
根据 IDC 数据,2021 年全球 AI 服务器市场规模为 156 亿美元,预计到 2026 年全球 AI 服务器市场将达到 355 亿美元;2021 年中国 AI 服务器行业市场规模为 64 亿美元。根据 IDC 数据,数据中心场景中,200/400G 端口出货量有望快速提升,22-26 年复合增速达 62%,预计 2026年全球交换机端口出货量超 8.7 亿个,市场规模超 440 亿美元。