来启动大模型训练腾讯云颁布新一代高功用算力集群

科技 2023-04-14 13:12:22 浏览次

DoNews4月14日信息，腾讯云昔日颁布面向大模型训练的新一代HCC（High-Performance Computing Cluster）高功用计算集群，全体功用比过去优化了3倍。其驳回英伟达H800 Tensor Core GPU，能够提供高功用、高带宽、低提早的智算才干撑持。

据引见，一团体工自动大模型，理论得用数万亿个单词训练，参数量也“飙升”到了上万亿。这个时分，只要高功用的计算集群能hold住。算力集群的功用，由单机算力、网络、存储独特决议。就像一个结实的木桶，缺一无法。

H800是英伟达公司2023年为了绕开美国的技术进口限度，特地为中国市场量身打造的一款计算卡产品。与原有的H100相比，其互连速率减掉了一半左右，在某些大型模型训练里的提早会参与，升高了任务负荷。

腾讯云新一代集群经过对单机算力、网络架构和存储功用启动协同优化，能够为大模型训练提供高功用、高带宽、低提早的智算才干撑持。在网络方面，公司自研的星脉高功用网络，能让大模型集群训练效率优化20%。

腾讯云的训练框架AngelPTM，对内允许腾讯混元大模型的训练，也已经过腾讯云对外提供服务。在2022年10月，实现了首个万亿参数大模型训练，并将训练时间延长80%。

腾讯云的TI平台（一站式机器学习平台）领有大模型才干和工具箱，能协助企业依据详细场景，启动精调训练，优化消费效率，高速创立和部署 AI 运作。

腾讯云还走漏，其自研芯片曾经量产，包含用于AI推理的紫霄芯片。它驳回自研存算架构和自研减速模块，可以提供高达3倍的计算减速功用和超越45%的全体老本节俭。

来启动大模型训练 腾讯云颁布新一代高功用算力集群