GTC 2023 CEO Keynote:“AI的 iPhone时刻已经到来”
NVIDIA的GTC 2023正在如火如荼的举行,老黄的GTC Keynote演讲已经结束,感兴趣的童鞋可以官网观看(中文字幕),也可以下载官方PPT(全英文)。太长不看?那就看小编“人工”智能的图文汇总吧!
首先,刀客黄打了个很巧妙的比方:“如果把加速计算比作曲率引擎,那么动力来源就是AI。”玩过P社四萌、戴森球或者科幻迷对于曲率引擎并不陌生,实现超光速移动的方式无非就是虫洞和曲率引擎,而两种方式所需能量也不可估量。回到现实中,“计算”也正在“光速”发展,而AI则是关键,想要公司不掉队,就得重新构思产品和商业模式。
“各个行业的企业正在竞相进行数字化转型,希望成为软件驱动的科技公司,成为行业颠覆者而不是被颠覆者。”而这,正是老黄举办GTC和大力发展数字中心业务的原因之所在了,老黄表示:“加速是重获优势、实现可持续发展,以及达到净零排放的最佳途径。”
接下来就是王婆卖瓜的环节,老黄表示“AI的 iPhone时刻已经到来”,通过n个例子说明了NVIDIA如何提供训练和部署尖端AI服务所需的各种技术,并且带来了NVIDIA cuLitho 计算光刻技术,甚至ASML也计划内置NVIDIA cuLitho进他们的光刻机设备。同时,老黄的CPU+GPU超级大饼也在本届GTC上展出实物,满足有本地算力需求的客户,而NVIDIA AI Foundations、DGX AI和Omniverse Cloud,让你只需要游览器就能使用AI创造价值。
“AI的 iPhone时刻已经到来”
首先,我们来看看AI的iPhone时刻。十年前,NVIDIA提供了GTX 580核战术显卡帮助训练了AlexNet计算视觉模型,触发了AI的“大爆炸”,而十年后的ChatGPT引爆新一轮AI风潮,瞬间吸引了超过1亿用户,成为有史以来增速最快的应用。
训练GPT-3模型需要的浮点计算量是AlexNet的一百万倍,结果就是创造出来ChatGPT,“AI的 iPhone时刻已经到来”。
通过30年的努力,NVIDIA已经形成了良好的生态闭环,旗下显卡都能支持CUDA,众多行业顶尖公司采用NVIDIA的AI和加速计算平台实现所需,而“加速计算是减少功耗、实现可持续发展和净零排放的最好方式”。
NVIDIA cuLitho向物理极限进发
在老黄罗列了10多分钟各行业巨头应用NVIDIA加速计算的范例后,终于迎来了本次发布会的重头戏,NVIDIA cuLitho计算光刻技术。众所都周知,Intel苦于工艺进步已多年,以至于制程相继被台积电和三星所赶上,老怼手AMD也重振雄风,而现在能够不断试探物理极限的方法在老黄手上,很神奇。
这里面的难点在于Mask(掩膜)和Wafer(晶圆)上的图案完全不一样,如下图所示。
而计算光刻技术,模拟了光通过光学元件和光刻胶相互作用时的行为,根据麦克斯韦方程来推导,这是芯片设计和制造领域中所需算力最多的关键步骤之一。
然后NVIDIA就推出了cuLitho——一个计算光刻库。
老黄和ASML、台积电、新思科技等行业翘楚已经练习时长4年了,只因想把计算光刻加速40倍以上。举个栗子,NVIDIA H100需要89块掩膜板,CPU运行处理单个掩膜板的计算时间长达2周,而GPU上运行cuLitho只需8小时即可处理完成一个掩膜板。
同时,台积电可以通过在500个DGX H100系统上使用cuLitho加速,将功率从35MW降至5MW,替代用于计算光刻的4万台CPU服务器。短期看,使用cuLitho的晶圆厂每天的光掩膜产量可以增加数倍,而耗电量则降低至几分之一;长期看,可以节能减排,为2nm及更高工艺的生产做好准备。
“我们正处于AI的iPhone时刻”
过去十年,云计算每年增长20%,已发展成为一个万亿美元的产业,算力则是重中之重,为此NVIDIA也推出了Grace Superchip这一高性能计算模块。
Grace Superchip封装好的计算模块大小仅有8x5英寸,1U风冷机架可以放入2个模块。相比传统x86 CPU,Grace性能可领先30%,能效可领先70%,数据中心吞吐能力可领先1倍,目前也有众多服务器厂商正在样品测试。
对于类似ChatGPT的大型语言模型(LLM),就需要新的GPU和DGX AI超级计算机了,在老黄亲手把全球首台DGX送至OpenAI后,《财富》100强企业目前有一半安装了DGX AI超级计算机。
推动DGX的引擎,就是全新的H100 GPU了。新版本DGX搭载8个NVIDIA H100 GPU,基于NVIDIA Hopper架构的H100配有一个Transformer引擎,旨在处理驱动ChatGPT的类似GPT模型。8个H100通过NVLINK彼此相连协同工作,组成1个巨型GPU。而每个巨型GPU都通过400Gbps超低延迟的Quantum InfiniBand计算网络相连,形成一台AI超级计算机,进而组成一个现代的AI工厂。
然后老黄点题,“我们正处于AI的iPhone时刻”。
进而引出了自己的NVIDIA DGX Cloud服务,通过和Microsoft Azure、Google GCP和Oracle OCI合作,“从浏览器上” 就能随时随地将AI带给每家公司。通过NVIDIA AI Enterprise,“DGX Cloud为客户提供 NVIDIA AI和世界领先云服务提供商的出色服务。”
在拥有了强大算力之后,NVIDIA甚至推出了“AI代工厂”——NVIDIA AI Foundations云服务。你可以理解成传统行业的OEM、ODM、EMS形式代工厂,但代工的内容从实体变成了构建模型和生成AI。NVIDIA NeMo,可以构建自定义语言文本-文本转换生成模型;Picasso,可以简化构成自定义生成式AI应用所需的训练、优化和推理;BioNeMo,则推动了2万亿美元规模的药品研发行业。
CPU+GPU超级大饼
对于需要本地算力的客户,NVIDIA推出了全新推理平台,一个体系下针对不同推理有4种配置:针对AI视频工作负载的L4;针对Omniverse、图形渲染及文本转图像和文本转视频等生成式ai的L40;针对ChatGPT的大型语言模型(LLM)推理的改进版本Hopper H100——双GPU的H100 NVL;以及去年的CPU+GPU超级大饼——Grace-Hopper。
老黄手里的这块就是去年GTC上宣布的Grace Hopper,没错就是缝合怪,和2个Grace的Grace Superchip类似,Grace Hopper把Grace和Hopper缝到一个PCB上,900GB/s的带宽通信比PCIe总线快了近10倍,是非常适合处理LLM和海量数据的计算模块。
AI & Omniverse
有了以上这些硬件和软件的基础,AI & Omniverse成就未来无限可能。老黄 介绍了Omniverse在3万亿美元规模的汽车产业数字化中的作用,通用、梅赛德斯-奔驰、宝马、比亚迪、Lucid Motors等传统和“新势力”车厂都应用Omniverse虚拟化生产,Amazon也通过Omniverse构建更智能化的物流仓储。
PC三巨头也推出了针对Omniverse优化的搭载NVIDA Ada RTX GPU和Intel新一代CPU的工作站,对于光线追踪、物理仿真、神经图形和生成式AI都适用。同时你也可以选择Omniverse Cloud这一全托管的云服务,现已加入Microsoft 365全家桶。
看完GTC2023,给小编的感受是老黄在数据中心业务的闭环已经形成,完整的生态带来的优势也极难撼动。那和咱凑打游戏的有啥关系呢?通过GTC2023后的NVIDIA股价,以及NVIDIA新一季财报和年报,都能够看出数据中心已经取代游戏成为NVIDIA的明星业务。
换句话说,随着N卡附加价值的增高甚至超过游戏价值后,N卡定价让游戏玩家能接受的几率也越来越小了。一方面,小编希望Intel、AMD的竞品能够有足够竞争力,游戏厂商除了吹画面还能拿出点游戏性来;另一方面,希望老黄也别忘了玩家,毕竟也是曾经的上帝和衣食父母,水能载舟,亦可赛艇。