回顾NVIDIA GTC 2024Blackwell算力核弹问世AI机器人来袭

  新闻资讯     |      2024-03-22 17:42

  AI,这个在2023年犹如井泉喷涌进我们日常生活的词语,现如今正以惊人的速度重塑着我们的生活方式,同时间改变着整个世界的面貌。从大语言LLMs模型到先进的AI图像生成,从智能算法推荐到惊人的AI视频生成,人工智能的触角已经伸展到了科技的各个角落。

  从GPT-4发布,到谷歌Bard的入场、Meta开源模型LLama的问世,再到国内文心一言、星火大模型、通义千问、月之暗面等诸多国产模型的纷纷亮相。我们目睹了全球人工智能领域的快速发展和技术突破。

  如今AI的竞争依然处于百花齐放百家争鸣的阶段,每一家都在使用自身优势在AI浪潮中分得一杯羹。从北美的硅谷到欧洲的科技集群,从亚洲的研发中心到其他地区的创新孵化器,AI正在成为跨国界、跨文化的合作与竞争的焦点。

  若将人工智能比作科技高峰上的璀璨之花,那么NVIDIA无疑是这些花朵赖以绽放的肥沃土壤。正是NVIDIA提供的先进计算平台,成为滋养人工智能之林的关键养分,让这些技术之花竞相开放,展现出惊世之美。

  每年春季,NVIDIA的GTC主题演讲就如约而至。自2019年以“GPU Computing: The Future of Computing”揭开序幕,AI便成了GTC年会的重头戏。NVIDIA始终致力于将旗下产品的强大算力与AI技术的前沿需求无缝对接。正是老黄远见卓识的策略布局,使NVIDIA在AI的黄金时代巍然屹立,稳占行业霸主之位。

  2023年,老黄在演讲中详细阐述了NVIDIA在人工智能、数据中心、云计算等关键领域取得的最新成果。重点介绍了NVIDIA Hopper GPU架构,它使AI性能相比前一代产品实现了翻倍的飞跃。同时,NVIDIA DGX Cloud为企业级用户带来了前所未有的强大算力支持;而NVIDIA Omniverse平台则将AI技术的应用拓展到了设计和建筑行业。老黄在演讲中富有预见性地指出:我们现在正处在人工智能的‘iPhone时代’。

  在今年的GTC上,老黄再一次地刷新了世界AI商用算力的排行榜,发布了Blackwell 架构和同名AI处理器B100、B200 和 GB200,产品取名自杰出数学家和统计学家 David H. Blackwell,体现了其在概率计算、博弈论、统计学和动态规划等多个领域的杰出贡献。

  此次发布的 Blackwell GPU B100使用了两个台积电4NP工艺制造的芯片,芯片面积为814平方毫米,这个数据已经接近了EUV光刻技术的理论极限值(858平方毫米),两个芯片通过C2C-Interface进行相连,组成一个“1600平方毫米”的超大处理单元。

  在日常的计算任务中,FP32(单精度浮点数)和FP64是最为普遍的数据格式,它们使用32位和64位分别对浮点数进行编码,既能提供较大的数值范围也保障了较高的数值精度,但相对地,也对内存和计算资源的需求更高。与之相对,FP16(半精度浮点数)和FP4提供的算力精度较低,特别是FP4,其低精度下的性能并不理想,即使在大型语言模型(LLMs)中开启FP4精度运行也是如此。

  尚不明确NVIDIA此次为何将主要升级焦点放在FP4运算上。随着针对移动端LLMs需求的增长,对FP4运算的依赖可能有所增加,这或许促使NVIDIA优化了对FP4的支持,以提升这些应用的运算效率。

  然后也放一下B100和B200的对比图,B200在运算性能与显存上对比B100有了不小的提升,相当于B100的“官方灰烬版”。同时NVIDIA还推出了GB200。

  GB200就是将四个B200芯片和两个Grace CPU整合到一起,“合体之后”的性能表现将是单片H100的30倍左右的提升。当然GB200是应该是不会单独售卖的,如同去年推出的HGX 100 72X一样,GB200主要还是通过整合,然后形成一个GB200 NVL72的计算中心进行出售。

  回顾最近发布的Blackwell GPU,我认为其最大亮点并非在于算力的显著提升,而是它所搭载的192GB HBM 3E高带宽存储。面对如今日益增长的模型尺寸——例如,埃隆·马斯克最近宣布开源的Grok-1模型,它至少需要800GB的显存才能运行。若使用H100 GPU(配备80GB显存),运行该模型需要整整10张卡,而采用B100 GPU(如果每张配备192GB显存),仅需4张便可满足需求。这对于运维商而言,无疑是一种成本效率极高的解决方案。

  这也是未来AI处理器发展的一个趋势,为了更好地AMD 的 Instinct MI300 系列产品形成压制。NVIDIA 还计划在今年下半年为 H100 系列加速器增加新的 H200 或 GH200 代,这将提供更高的 141 GB HBM3E 存储以及 4.8 TB/s 的存储带宽,必一运动也就是官方的显存提升版本。

  NVIDIA在本次的GTC 2024中进一步升级了其Omniverse平台,并将其企业技术扩展到了苹果生态系统。这一策略在于借助Vision Pro应用,使开发者得以在增强现实/虚拟现实(AR/VR)环境中利用Omniverse的强大工具。

  在GTC大会上上,NVIDIA展示了设计师如何利用Vision Pro中的汽车配置工具操作车辆模型,并能够以虚拟的方式“进入”车辆内部进行查看。这种交互是通过Omniverse Cloud API实现的,此外,图形内容还可以通过云计算服务直接流式传输至Vision Pro,实现高效的图形传输网络服务。

  这一升级意味着,Omniverse和Vision Pro的结合将为AR/VR领域带来更加沉浸式和互动性强的体验。用户能够在三维空间中以更加自然和直观的方式进行设计、模拟和创作,这对于产品设计、建筑可视化以及互动娱乐等多个应用场景都将是一次质的飞跃。

  正当我们以为今天的大会只会聚焦于算力话题时,老黄却给我们带来了意想不到的惊喜——备受瞩目的年度机器人环节如约而至,NVIDIA宣布了其人形机器人项目GR00T。

  在今日的主题演讲中,黄仁勋展示了多款由GR00T平台驱动的人形机器人如何高效完成多项任务,这些机器人分别来自 Agility Robotics、Apptronik、傅利叶智能以及宇树科技。

  GR00T的诞生源自NVIDIA的Isaac机器人平台工具,它基于全新的通用基础模型设计,使得GR00T驱动的人形机器人能够接收并处理文本、语音、视频乃至现场示范的输入信息,从而执行精确的操作。这些操作包括理解自然语言、模仿人类行为、在现实世界中的导航和互动等。可以说,AI已经变成了机器人的“灵魂”。

  NVIDIA还开发了一款新型的“机器脑”计算芯片——Jetson Thor,该芯片能够执行复杂的任务,并借助Transformer引擎处理多元的传感器数据。

  未来,NVIDIA将人形机器人定位为公司的一个关键战略方向。正如黄仁勋所预示的,机器人界的ChatGPT时代可能即将来临。

  在过去,NVIDIA给人更多的印象就是一个游戏显卡的制造商,很少有人能够想到在不到20年的时间里,NVIDIA通过CUDA能够让GPU从一个“游戏硬件”概念变成一个改变世界的“数字石油”。

  未来,随着技术的不断进步,NVIDIA的GPU很可能继续拓展其影响力。随着量子计算、边缘计算和物联网的发展,NVIDIA的技术有望在新的领域中发挥关键作用,进一步加速世界的数字化转型。