回顾NVIDIA GTC 2024Blackwell算力核弹问世AI机器人来袭

新闻资讯 | 2024-03-22 17:42

　　AI，这个在2023年犹如井泉喷涌进我们日常生活的词语，现如今正以惊人的速度重塑着我们的生活方式，同时间改变着整个世界的面貌。从大语言LLMs模型到先进的AI图像生成，从智能算法推荐到惊人的AI视频生成，人工智能的触角已经伸展到了科技的各个角落。

　　从GPT-4发布，到谷歌Bard的入场、Meta开源模型LLama的问世，再到国内文心一言、星火大模型、通义千问、月之暗面等诸多国产模型的纷纷亮相。我们目睹了全球人工智能领域的快速发展和技术突破。

　　如今AI的竞争依然处于百花齐放百家争鸣的阶段，每一家都在使用自身优势在AI浪潮中分得一杯羹。从北美的硅谷到欧洲的科技集群，从亚洲的研发中心到其他地区的创新孵化器，AI正在成为跨国界、跨文化的合作与竞争的焦点。

　　若将人工智能比作科技高峰上的璀璨之花，那么NVIDIA无疑是这些花朵赖以绽放的肥沃土壤。正是NVIDIA提供的先进计算平台，成为滋养人工智能之林的关键养分，让这些技术之花竞相开放，展现出惊世之美。

　　每年春季，NVIDIA的GTC主题演讲就如约而至。自2019年以“GPU Computing: The Future of Computing”揭开序幕，AI便成了GTC年会的重头戏。NVIDIA始终致力于将旗下产品的强大算力与AI技术的前沿需求无缝对接。正是老黄远见卓识的策略布局，使NVIDIA在AI的黄金时代巍然屹立，稳占行业霸主之位。

　　2023年，老黄在演讲中详细阐述了NVIDIA在人工智能、数据中心、云计算等关键领域取得的最新成果。重点介绍了NVIDIA Hopper GPU架构，它使AI性能相比前一代产品实现了翻倍的飞跃。同时，NVIDIA DGX Cloud为企业级用户带来了前所未有的强大算力支持；而NVIDIA Omniverse平台则将AI技术的应用拓展到了设计和建筑行业。老黄在演讲中富有预见性地指出：我们现在正处在人工智能的‘iPhone时代’。

　　在今年的GTC上，老黄再一次地刷新了世界AI商用算力的排行榜，发布了Blackwell 架构和同名AI处理器B100、B200 和 GB200，产品取名自杰出数学家和统计学家 David H. Blackwell，体现了其在概率计算、博弈论、统计学和动态规划等多个领域的杰出贡献。

　　此次发布的 Blackwell GPU B100使用了两个台积电4NP工艺制造的芯片，芯片面积为814平方毫米，这个数据已经接近了EUV光刻技术的理论极限值（858平方毫米），两个芯片通过C2C-Interface进行相连，组成一个“1600平方毫米”的超大处理单元。

　　在日常的计算任务中，FP32（单精度浮点数）和FP64是最为普遍的数据格式，它们使用32位和64位分别对浮点数进行编码，既能提供较大的数值范围也保障了较高的数值精度，但相对地，也对内存和计算资源的需求更高。与之相对，FP16（半精度浮点数）和FP4提供的算力精度较低，特别是FP4，其低精度下的性能并不理想，即使在大型语言模型（LLMs）中开启FP4精度运行也是如此。

　　尚不明确NVIDIA此次为何将主要升级焦点放在FP4运算上。随着针对移动端LLMs需求的增长，对FP4运算的依赖可能有所增加，这或许促使NVIDIA优化了对FP4的支持，以提升这些应用的运算效率。

　　然后也放一下B100和B200的对比图，B200在运算性能与显存上对比B100有了不小的提升，相当于B100的“官方灰烬版”。同时NVIDIA还推出了GB200。

　　GB200就是将四个B200芯片和两个Grace CPU整合到一起，“合体之后”的性能表现将是单片H100的30倍左右的提升。当然GB200是应该是不会单独售卖的，如同去年推出的HGX 100 72X一样，GB200主要还是通过整合，然后形成一个GB200 NVL72的计算中心进行出售。

　　回顾最近发布的Blackwell GPU，我认为其最大亮点并非在于算力的显著提升，而是它所搭载的192GB HBM 3E高带宽存储。面对如今日益增长的模型尺寸——例如，埃隆·马斯克最近宣布开源的Grok-1模型，它至少需要800GB的显存才能运行。若使用H100 GPU（配备80GB显存），运行该模型需要整整10张卡，而采用B100 GPU（如果每张配备192GB显存），仅需4张便可满足需求。这对于运维商而言，无疑是一种成本效率极高的解决方案。

　　这也是未来AI处理器发展的一个趋势，为了更好地AMD 的 Instinct MI300 系列产品形成压制。NVIDIA 还计划在今年下半年为 H100 系列加速器增加新的 H200 或 GH200 代，这将提供更高的 141 GB HBM3E 存储以及 4.8 TB/s 的存储带宽，必一运动也就是官方的显存提升版本。

　　NVIDIA在本次的GTC 2024中进一步升级了其Omniverse平台，并将其企业技术扩展到了苹果生态系统。这一策略在于借助Vision Pro应用，使开发者得以在增强现实/虚拟现实（AR/VR）环境中利用Omniverse的强大工具。

　　在GTC大会上上，NVIDIA展示了设计师如何利用Vision Pro中的汽车配置工具操作车辆模型，并能够以虚拟的方式“进入”车辆内部进行查看。这种交互是通过Omniverse Cloud API实现的，此外，图形内容还可以通过云计算服务直接流式传输至Vision Pro，实现高效的图形传输网络服务。

　　这一升级意味着，Omniverse和Vision Pro的结合将为AR/VR领域带来更加沉浸式和互动性强的体验。用户能够在三维空间中以更加自然和直观的方式进行设计、模拟和创作，这对于产品设计、建筑可视化以及互动娱乐等多个应用场景都将是一次质的飞跃。

　　正当我们以为今天的大会只会聚焦于算力话题时，老黄却给我们带来了意想不到的惊喜——备受瞩目的年度机器人环节如约而至，NVIDIA宣布了其人形机器人项目GR00T。

　　在今日的主题演讲中，黄仁勋展示了多款由GR00T平台驱动的人形机器人如何高效完成多项任务，这些机器人分别来自 Agility Robotics、Apptronik、傅利叶智能以及宇树科技。

　　GR00T的诞生源自NVIDIA的Isaac机器人平台工具，它基于全新的通用基础模型设计，使得GR00T驱动的人形机器人能够接收并处理文本、语音、视频乃至现场示范的输入信息，从而执行精确的操作。这些操作包括理解自然语言、模仿人类行为、在现实世界中的导航和互动等。可以说，AI已经变成了机器人的“灵魂”。

　　NVIDIA还开发了一款新型的“机器脑”计算芯片——Jetson Thor，该芯片能够执行复杂的任务，并借助Transformer引擎处理多元的传感器数据。

　　未来，NVIDIA将人形机器人定位为公司的一个关键战略方向。正如黄仁勋所预示的，机器人界的ChatGPT时代可能即将来临。

　　在过去，NVIDIA给人更多的印象就是一个游戏显卡的制造商，很少有人能够想到在不到20年的时间里，NVIDIA通过CUDA能够让GPU从一个“游戏硬件”概念变成一个改变世界的“数字石油”。

　　未来，随着技术的不断进步，NVIDIA的GPU很可能继续拓展其影响力。随着量子计算、边缘计算和物联网的发展，NVIDIA的技术有望在新的领域中发挥关键作用，进一步加速世界的数字化转型。