英伟达hopper架构的核心是什么?

英伟达hopper架构的核心是什么?
文章图片

文章图片

性能比上一代A100高6倍 , 英伟达Hopper架构是怎么做到的?
作者|陈巍千芯科技
在2022年3月NVIDIAGTC大会上 , NVIDIA创始人兼CEO黄仁勋介绍了一款基于全新Hopper架构的H100GPU , 这是英伟达迄今用于加速人工智能(AI)、高性能计算(HPC)和数据分析等任务的最强GPU芯片 。
英伟达hopper架构的核心是什么?
文章图片

文章图片

Hopper架构H100GPU的主要升级
Hopper架构以计算科学的先驱GraceHopper的姓氏命名 。黄教主称:“HopperH100是有史以来最大的代际飞跃 。H100具有800亿个晶体管 , 在性能上堪称NVIDIA的“新核弹” 。
那么 , “新核弹”的核心是什么样的?本文将深入解读和分析Hopper架构 。
英伟达hopper架构的核心是什么?
文章图片

文章图片

Hopper架构的H100与前几代GPU性能对比
注:GraceHopper博士是哈佛Mark1的首批程序员 , 被誉为编译语言之母 。据称她发现了计算机程序中的第一个Bug , 同时也创造了计算机世界最大的Bug——千年虫 。
01.
Hopper的整体结构拆解
NVIDIAHopper架构H100芯片采用台积电4nm工艺(N4是台积电N5工艺的优化版) , 芯片面积为814平方毫米(比A100小14平方毫米) 。
英伟达hopper架构的核心是什么?
文章图片

文章图片

H100TensorCoreGPU的性能规格
Hopper架构可以视为由两组对称结构拼接而成 。(是不是有点类似我们之前介绍的苹果UltraFusion架构的拼接思路?不过这里的GPU还是单片的 。回顾苹果UltraFusion架构可参见《苹果芯片“拼装”的秘方 , 在专利里找到了》文章 。)
在顶层拓扑上 , Hopper似乎与她的前辈Ampere架构差别不大 。图中的Hopper架构GPU由8个图形处理集群(GraphicsProcessingCluster , GPC)“拼接”组成 。
英伟达hopper架构的核心是什么?
文章图片

文章图片

Hopper架构基本结构
外周与多组HBM3封装在一起(Chiplet技术) , 形成整个芯片模组——从模组上看又是个“拼装货” 。片上的每个GPC又由9个纹理处理集群(TextureProcessorCluster , TPC)“拼接”组成 。
由PCIe5或SMX接口进入的计算任务 , 通过带有多实例GPU(Multi-InstanceGPU , MIG)控制的GigaThread引擎分配给各个GPC 。GPC之间通过L2缓存共享中间数据 , GPC计算的中间数据通过NVLink与其他GPU连接/交换 。每个TPC由2个流式多处理器(StreamingMultiprocessor , SM)组成 。
【英伟达hopper架构的核心是什么?】Hopper架构的性能提升和主要变化体现在新型线程块集群技术和新一代的流式多处理器(具有第4代张量核心) 。
英伟达hopper架构的核心是什么?
文章图片

文章图片

线程块集群和带有集群的网格
Hopper架构中引入了一种新的线程块集群机制 , 该机制可以跨SM单元进行协同计算 。H100中的线程块集群可在同一GPC内的大量SM并发运行 , 这样对较大的模型具有更好的加速能力 。
02.
新一代流式多处理器SM与FP8支持
Hopper架构的新一代流式多处理器引入了FP8张量核心(TensorCore)来加速AI训练和推理 。FP8张量核心支持FP32和FP16累加器 , 以及两种FP8输入类型(E4M3和E5M2) 。