Nvidia B100/B200/GB200 关键技术解读

B200 GPU的数量是现有H100的两倍多，但B200封装了2080亿个晶体管（而H100/H200上为800亿个）。这意味着B200芯片封装密度比H100进一步提高，对管理散热和功耗也提出了更高的要求。引入一种新的计算精度，位宽比FP8进一步降低，B200峰值算力达18P。位宽介于FP4和FP8之间。B200有两个Die，高速连接通道NV-HBI达到10TB/s。两个Die是一个统一的Cuda

神经蛙没头脑

2973人浏览 · 2024-04-07 08:54:24

神经蛙没头脑 · 2024-04-07 08:54:24 发布

芯片

1. GPU芯片

晶体管数：
B200 GPU的晶体管数量是现有H100的两倍多，但B200封装了2080亿个晶体管（而H100/H200上为800亿个）。这意味着B200芯片封装密度比H100进一步提高，对管理散热和功耗也提出了更高的要求。

FP4精度：
引入一种新的计算精度，位宽比FP8进一步降低，B200峰值算力达18P。

FP6精度：
位宽介于FP4和FP8之间。

NV高带宽接口（Nvidia High Bandwidth Interface）：
B200有两个Die，高速连接通道NV-HBI达到10TB/s。两个Die是一个统一的Cuda GPU。NV-HBI会占用一定的芯片面积。

内存：
B200每个Die有4个24GB的HBM3e stack，合计一个Cuda GPU有192GB内存，内存带宽达8TB/s。相比H200时代六个内存控制器，可以减少内存接口的芯片面积，从而使得计算面积可以更大。

GB200：
有两个B200（4个GPU Die）和一个Grace CPU，2700W。

2. NVLink芯片

第五代NV-Link芯片，双向带宽达1.8TB/s = 18（links） * 50GB/s (bandwidth each direction) * 2，是Hopper GPU使用的第四代NV-Link的2倍。最大支持576个GPU的连接，相比上一代是256个。

3. NVSwitch芯片

第四代NVSwitch芯片，7.2TB/s的全双工带宽，是上一代的两倍。

4. DPU和CPU没有更新

服务器

HGX B200：
一机八B200整机解决方案。每个B200是1000W。

HGX B100：
一机八B100整机解决方案。每个B100是700W。

GB200 SuperPOD 服务器

GB200 superchip：
2个CPU和4个B200。这个compute tray是1U的，液冷。

GB200 NVL72：
包含18个1U compute tray（共72个B200）、9个Switch Tray（共18个Switch ）。

GB200 superPOD：
576个B200 GPU。与H100相比，superpod的训练性能提升4倍，推理性能提高30倍，能效提高25倍。

Blackwell 架构的 GPU

基本技术参数

一文看懂英伟达A100、A800、H100、H800各个版本有什么区别？ - 知乎 (zhihu.com)

AI核弹B200发布：超级GPU新架构30倍H100单机可训15个GPT-4模型，AI进入新摩尔时代 - 知乎 (zhihu.com)

先进计算技术路线图（2023） - 知乎 (zhihu.com)

建议收藏！大模型100篇必读论文 - 知乎 (zhihu.com)

马斯克起诉 OpenAI：精彩程度堪比电视剧，马斯克与奥特曼、OpenAI的「爱恨纠缠史」 - 知乎 (zhihu.com)

生物信息学必备网站大全 - 知乎 (zhihu.com)

生物信息学简史 - 知乎 (zhihu.com

2023第一性原理科研服务器、量化计算平台推荐 - 知乎 (zhihu.com)

Llama-2 LLM各个版本GPU服务器的配置要求是什么？ - 知乎 (zhihu.com)

人工智能训练与推理工作站、服务器、集群硬件配置推荐

整理了一些深度学习，人工智能方面的资料，可以看看

机器学习、深度学习和强化学习的关系和区别是什么？ - 知乎 (zhihu.com)

人工智能 (Artificial Intelligence, AI)主要应用领域和三种形态：弱人工智能、强人工智能和超级人工智能。

买硬件服务器划算还是租云服务器划算？ - 知乎 (zhihu.com)

深度学习机器学习知识点全面总结 - 知乎 (zhihu.com)

自学机器学习、深度学习、人工智能的网站看这里 - 知乎 (zhihu.com)

多年来一直专注于科学计算服务器，入围政采平台，H100、A100、H800、A800、L40、L40S、RTX6000 Ada，RTX A6000，单台双路256核心服务器等。

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

设置Latex页眉页脚边距——fancyhdr的使用

0、起因学校要求用word编辑文档，并对格式和排版做了一些要求，本人尝试用latex来实现同样的效果1、文档的格式要求页边距：上25mm，下25mm，左25mm，右20mm页眉边距15mm，页脚边距15mm行间距20磅2、Latex中的页面布局参数可以看到Latex对文档内容之间距离的描述方式与word还是有所不同的，我们需要关注的是上图中的2、5、6、113、实现...