作者: 彭海斌
[ 国际数据公司IDC此前披露的报告显示,2021年的全球人工智能服务器市场上浪潮信息以20.8%的占有率位居全球之首。 ]
英特尔的一款人工智能芯片,楔入了英伟达(Nvdia)炙手可热产品的中间地带。
国际和国内企业推出的人工智能芯片不少,但英伟达的GPU及其软件生态居于先导地位。在大模型领域同样如此,引领潮流的Chat GPT使用英伟达芯片用于训练和推理,中国本土推出的近百款大模型绝大多数都能和英伟达芯片适配。英特尔最近在中国推出Gaudi2芯片,这款产品强过英伟达的A100,却又弱于英伟达的H100。
大模型(Model)和英伟达的芯片,形成一种紧密的耦合,我们姑且称之为“MN组合”。这个组合从性能上看,目前最有效率,也最昂贵。英特尔、AMD、华为等企业奋起直追。芯片竞争者们希望在人工智能赛道占据更有利的地形,大模型企业们则希望有更多元、价格更适宜的选项。它们都希望打破这种组合。
美国对先进芯片的出口限制,令国内人工智能的算力短缺加剧。这给国内芯片企业创造了特殊机遇。开发大模型的企业“当前更关注第二选择”,华为昇腾计算业务总裁张迪煊对第一财经表示:“过去更多是我们在找企业,现在很多企业找过来了。”
“MN组合”
浪潮信息是芯片短缺的最新受害者。
据浪潮信息7月11日披露的业绩预告,该公司上半年营业收入出现接近三成的同比下滑,扣除非经常性损益的利润下滑超过八成。
浪潮信息是全球最大的AI服务器厂商,连续6年中国AI服务器市场份额第一。国际数据公司IDC此前披露的报告显示,2021年的全球人工智能服务器市场上浪潮信息以20.8%的占有率位居全球之首。从更广泛的服务器市场来看,浪潮信息长期保持全球第二、中国第一的市场份额。
浪潮信息行业巨人的形象,在芯片短缺时期变得暗淡。浪潮信息将2023年上半年的业绩暴跌归结于“全球GPU及相关专用芯片供应紧张等因素”。
GPU是主要用于图形处理的芯片,它有别于普通消费者手机或者电脑中使用的CPU。现在全球GPU市场的主导者是英伟达,它早期开发这类芯片用于游戏市场,因游戏产品对于图形处理的要求更高。随着人工智能技术的发展,GPU暴力计算的能力在新战场风头无两。英伟达一度是浪潮信息最重要的芯片提供方之一。
浪潮信息既是AI服务器的提供方,为其客户提供基础算力,同时它也在开发自己的人工智能大模型,这意味着它自身也需要耗费不少的算力。浪潮信息的AI团队发布的中文语言模型“源1.0”,它的参数量达2457亿,超过GPT-3的1750亿。
大模型是人工智能目前最热的研发方向。Open AI开发的大模型Chat GPT发布后成为一个现象级的产品,比尔·盖茨将之视为可以比肩Windows图形界面的革新性技术,而英伟达的创始人黄仁勋则称现在已经到了AI的“iPhone时刻”。
Chat GPT是与英伟达紧密相连的。微软在其云计算平台Azure上构建了超级计算集群,并提供给Open AI用于Chat GPT的训练和推理,其中动用了大量英伟达GPU。随着大模型的火爆,美国和中国都聚集了大量科技巨头跟进,其中包括了国内的华为、百度、阿里以及腾讯等,还有美国的谷歌、Meta等。
英伟达芯片占据先发优势,成为国内国外大模型项目的首选方案。
大模型遍地开花,推升算力需求,加之美国对高性能芯片出口中国的限制,令有需求的国内企业加大了囤积力度。这样的背景下,英伟达的GPU一卡难求。算力的饥渴蔓延到了每一个角落。
“肯定都是英伟达”,在谈到人工智能相关企业囤积的AI芯片种类时,某人工智能公司技术负责人对第一财经记者这样表示。
该公司从去年至今,囤了几百张英伟达的A800板卡,主要帮助企业在通用大模型的基础上,构建满足垂直场景需求的领域大模型。
英特尔和AMD等企业也有AI芯片,不过与英伟达的产品相比还有差距。考虑到大模型动辄百亿级的参数量,芯片性能影响到大模型的训练和推理速度。“其实都能用,不过看企业能接受的训练时长是多少。比如用慢点的卡可能需要一个月的训练时间,那么快点的卡可能只需要一两天。这是训练速度的问题。”该负责人表示。
在日进千里的技术浪潮里,很少企业愿意等待。如果仅仅从效率维度来看,大模型与英伟达的“MN组合”还是被企业视作当下最优解。
第二选择
英特尔用一款人工智能芯片,楔入了英伟达的产品组合中间地带。
“在AI推理工作负载中,与英伟达A100相比,至强的推理性能可超5倍;与AMD的64核EPYC CPU相比,至强的推理性能可超2倍。就AMD EPYC而言,英特尔可以更少的内核,提供更高的AI性能。”英特尔公司执行副总裁Sandra Rivera表示,“在AI训练工作负载中,与英伟达A100相比,至强拥有近3倍的性能提升。”
英特尔最近在中国推出了其Gaudi2产品,它搭配至强可扩展处理器,为大语言模型提供算力解决方案。
相对英伟达的A100芯片,英特尔Gaudi2性能更强;相对英伟达的H100芯片,英特尔的Gaudi2则性能偏弱。
“对于包含整个GPT-3语料库的代表性切片的GPT-3训练评估,Gaudi2在384个加速器上训练GPT-3的时间为311分钟,英伟达在512个H100 GPU上的训练时间则为64分钟。这意味着,基于GPT-3模型,每个H100的性能领先于Gaudi2 3.6倍。”英特尔Habana Labs首席运营官Eitan Medina表示。
英特尔靠性价比拉近与英伟达的距离。
人工智能算力越来越贵,企业采购芯片的时候不得不考虑成本问题。“性价比是影响H100和Gaudi2相对价值的一个重要考量因素。Gaudi2服务器的成本要比H100低得多。Gaudi2的价格优势大大缩小了与H100的性价比差距。“Eitan Medina说。
能耗也是英伟达、英特尔等芯片公司比拼的焦点。
大模型的训练周期,少则半个月,多则三个月。在一个完整的训练周期,系统运行所耗费的电费账单是“特别让人感到惊叹的一个数字”。
近年大规模的兴建数据中心,更是对能耗的严峻挑战。据江森自控中国区总经理杨光观察,三年前数据中心的构建者主要还是BAT以及万国数据等公司,最近几年的趋势则是“国家队进场”,尤其是移动、电信数据中心的“大量的进场”。加之一些关键的行业,金融、电网等开始建自己的数据中心。“对算力的要求特别大、能耗特别大”,杨光对第一财经记者表示。
对于浪潮信息来说,它现在能找到的,对英伟达芯片的最好替代者可能就是英特尔了。
在最近的半年,浪潮信息在协助它的AI客户规划、设计、交付、服务AI算力的集群。“在这个过程当中,既作为大模型的开发团队,又作为大模型算力方案的支撑团队,我们深刻体会到了在大模型这场AI技术的创新当中,客户的痛点和需求。”浪潮信息AI&HPC产品线总经理刘军说。英特尔的Gaudi2在国内会首先用于浪潮信息的服务器。英特尔也长期为百度提供芯片,其Gaudi2也可能用于百度大模型项目。
百度自身也参与了人工智能芯片的研发,2016年其昆仑芯业务团队独立,并拿到了IDG、君联等机构的投资。百度方面此前透露昆仑芯2代已经量产,百度执行副总裁沈抖则在去年表示,昆仑芯3代将于2024年初量产。但昆仑芯方面未对今年的最新进展予以回应。
昇腾芯片也是国内企业的一个备选方案。
昇腾是国内唯一一个完成千卡千亿参数训练并商用的系统。昇腾AI在2019年发布了Atlas900集群,在2020年向深圳鹏城实验室交付了4000张卡组成的集群,在今年6月份又把集群的规模提高到了8000张卡。“我们也在努力到年底达到16000张卡。目的是什么?就是让大模型训练越来越快。”张迪煊对第一财经表示。
一个1750亿参数的大模型,按照昇腾千卡集群,训练阶段需要两三个月的时间;如果部署到16000张卡的大集群,同样的大模型训练时间可以缩短到半天。张迪煊表示:“这样就像写代码一样,我敲一个键盘,这些文件出来了。这是我们想要的效果,这样能快速推进人工智能发展。”
科大讯飞此前发布了星火大模型,该公司也在使用昇腾910芯片构建算力基础。“昇腾搭建基础的算力平台,讯飞在这个基础平台上,把大模型的算法从训练端到推理端的性能优化好。这样大家形成一个联合的创新体。”科大讯飞总裁吴晓如对记者解释说。谈到国外芯片供应,吴晓如表示:“问题是现在不可控,你也搞不清他哪天不给你用。”
“我跟很多企业沟通中发现,他们首先会关注成本,希望有新的替代能降成本。第二,当前企业更多关注‘第二选择’。”张迪煊对第一财经表示,“现在国内对人工智能算力需求非常旺盛。国内算力的供需比是不足的,可能大厂拿到算力,有些小厂拿不到算力。这一波(大模型)来了以后给昇腾很大的机会。过去更多是我们在找企业,现在是很多企业找过来了。”
用进废退
大模型也在分层。
部分走在最前沿的、有丰沛资本加持的公司开发参数动辄千亿级别的通用大模型,这是一条“大算力、大数据、大模型”的路径。中间层的企业,将会在通用大模型基础上构建起面向垂直行业的大模型;此外还会有面向具体应用场景的大模型产品,帮助企业构建起交互体系。跬智信息的联合创始人兼CEO韩卿认为,现在大模型是“大力出奇迹”,相比算法,大算力和大数据更加重要。跬智信息是在大模型的基础上,帮助企业打造专属的指标体系,建立私有化的指标知识库,它的客户集中于金融、制造业、医疗等领域。
对于一些敏感型的国内产业比如金融,数据的保护极其重要。“MN组合”并不是稳妥的选择,因为海外的大模型如Chat GPT相较国内大模型更难获得信任,而英伟达高端芯片因美国限令而缺乏稳定供应能力。“今天Open AI(的Chat GPT模型)没有办法给到我们大金融客户。”韩卿接受第一财经记者采访时表示。但与此同时,相对已经获得广泛认可的Chat GPT来说,“国产化的模型成熟度对我们来说是一个挑战。”
当下的算力短缺,可能演变成长期的难题。
“现在大模型,商业变现会越来越近,(算力)需求会快速增长。我们预测,2030年AI的算力相对2020年增长500倍,通用算力2030年相比2020年增长10倍。为什么?因为数据结构发生变化,现在都是大量的非结构数据,都是图片、视频、语音,CPU处理能力很弱的数据。”张迪煊接受第一财经在内媒体采访时表示。
英特尔高管也观察到算力需求的迅猛增长,该公司在一季度的时候表示,各类人工智能技术带来的芯片需求,比上年同期“至少翻了两倍”。
总的来说,在中国市场上,大模型的技术成熟度,算力的供给能力,都还有相当大的改进空间。“中国的现状是一流的应用、二流的模型、三流的算力。”在跬智信息用户大会上,中金公司研究部计算机行业首席分析师于钟海这样评价。
“大家都知道,现在国内人工智能的产品需求是非常大的,产品是完全不够的,在这种情况下不用特别设什么份额的目标,反正就是把最好的产品带出来,满足市场的需求。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立表示。
在算力短缺的市场里,大模型企业更有动力迁移到昇腾或者英特尔的算力体系上。一家企业将其大模型从一套底层算力体系切换到另外一套的时候,既需要付出时间和精力,更需要研发成本。如果算力既没有短缺,更没有断供之虞,企业则完全没有动力做切换。现在的情况正好相反。
“我觉得一方面给我们带来机会,第二方面确实加快我们的发展速度和成熟速度。所有产品只有被使用之后才能证明好与不好,所有产品只有使用以后才能把问题暴露出来,才能打磨得更好。”张迪煊表示。