专利 一种支持异构集群下的模型并行训练方法及相关设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211156400.2 (22)申请日 2022.09.22 (71)申请人鹏城实验室地址 518000 广东省深圳市南山区兴科一街2号 (72)发明人颜达森　张艳　王进　秦爽　王晖　曾炜　余跃　 (74)专利代理机构深圳市君胜知识产权代理事务所(普通合伙) 44268 专利代理师陈专 (51)Int.Cl. G06T 1/20(2006.01) G06N 20/00(2019.01) (54)发明名称一种支持异构集群下的模型并行训练方法及相关设备 (57)摘要本发明公开了一种支持异构集群下的模型并行训练方法及相关设备，所述方法包括：各个集群根据自己的框架编写好代码，然后在各自的框架上训练一部分数据，接着先在集群内部进行模型拼接，把模型并行切分到多张卡的模型参数合并成一个完整的模型，不同集群的拼接后得到的模型是一致的，然后将拼接完的模型参数进行分片传输到参数服务器，参数服务器对模型参数进行融合，接着参数服务器将融合后的模型下发到各个集群，最后各个分集群将收到的模型按照各自的模型并行训练策略进行模型并行切分后训练；本发明实现了用户隐私保护、数据安全、大模型并行训练和大模型传输，能整合不同计算中心资源，满足了异构框架，异构集群共同训练大模型的需求。权利要求书2页说明书7页附图2页 CN 115471394 A 2022.12.13 CN 115471394 A 1.一种支持异构集群下的模型并行训练方法，其特征在于，所述支持异构集群下的模型并行训练方法包括：基于参数服务器初始化numpy模型，将初始化后的numpy模型分别发送到GPU集群和NPU 集群， GPU集群和NPU集群根据各自所使用的训练框架将初始化后的numpy模型加载到真实训练的模型中，再对真实训练的模型进行模型并行切分后训练； GPU集群和NPU集群分别在各自本地训练自定义预设大小的部分数据； GPU集群和NPU集群根据各自所使用的训练框架和采用的模型并行策略进行模型拼接，将切分到不同设备的模型合并成一个完整的模型，将完整的模型转换为统一的numpy格式，使得GPU集群和NPU集群得到的numpy模型一致；将numpy模型按照统一的切分方式进行切片后，传输到参数服务器，参数服务进行拼接处理；参数服务器接收到来自GPU集群和NPU集群的统一格式的numpy模型后，通过参数平均的方式对numpy模型进行融合，得到融合后的numpy模型；参数服务器将融合后的模型分片分发到各个训练集群，各个训练集群根据所使用的训练框架和模型并行策略对完整的numpy模型进行切分，切分后的模型分配到不同的设备上，并进行训练。 2.根据权利要求1所述的支持异构集群下的模型并行训练方法，其特征在于，所述GPU 集群和NPU集群根据各自所使用的训练框架将初始化后的numpy模型加载到真实训练的模型中，再对真实训练的模型进行模型并行切分后训练，具体包括：若NPU集群使用的训练框架为基于Mindspore的训练框架，则NPU集群对真实训练的模型采用横向切分策略进行横向切分；若GPU集群使用的训练框架为基于Pytorch 的训练框架，则GPU集群真实训练的模型采用纵向切分策略进行纵向切分。 3.根据权利要求2所述的支持异构集群下的模型并行训练方法，其特征在于，所述横向切分包括：横向切分时，若权重矩阵为Wnxn，则进行横向4路切分，切分后的矩阵为Wbxn， Wbxn， Wbxn， Wbxn，其中， b＝ n/4；所述纵向切分包括：纵向切分时，若权重矩阵为Wnxn，则进行纵向4路切分，切分后的矩阵为Wnxb， Wnxb， Wnxb， Wnxb，其中， b＝ n/4。 4.根据权利要求1所述的支持异构集群下的模型并行训练方法，其特征在于，所述将完整的模型转换为统一的numpy格式，具体为：每个训练框架提供接口，将完整的模型通过接口转换为统一的numpy格式。 5.根据权利要求1所述的支持异构集群下的模型并行训练方法，其特征在于，所述参数服务器接收到来自GPU集群和NPU集群的统一格式的numpy模型后，通过参数平均的方式对 numpy模型进行融合，得到融合后的numpy模型，具体包括：若GPU集群的模型参数的格式为[W1， W2， W3， …， Wn]， NPU集群的模型参数的格式为[ K1， K2， K3，…， Kn]，则融合后的模型参数为： [M1， M2， M 3，…， Mn]；其中， W n， Kn， Mn是权重数组；其中，参数平均融合： Mi ＝(Wi+Ki)/2。权　利　要　求　书 1/2 页 2 CN 115471394 A 26.根据权利要求1所述的支持异构集群下的模型并行训练方法，其特征在于，所述参数服务器将融合后的模型分片分发到各个训练集群，各个训练集群根据所使用的训练框架和模型并行策略对完整的numpy模型进行切分，切分后的模型分配到不同的设备上，并进行训练，之后还包括：分配到不同的设备上的模型进行训练后，判断模型是否收敛，当模型达到任一预设的收敛条件时，停止模型训练。 7.根据权利要求1所述的支持异构集群下的模型并行训练方法，其特征在于，所述收敛条件包括：损失值小于某个预先设定的阈值；两次迭代之间权值的变化小于预设值；设定最大迭代次数，当迭代次数超过最大迭代次数。 8.根据权利要求1所述的支持异构集群下的模型并行训练方法，其特征在于，所述 numpy模型本质上为数组。 9.根据权利要求1所述的支持异构集群下的模型并行训练方法，其特征在于，将集群内训练的代码拓展成为云际协同训练。 10.根据权利要求1所述的支持异构集群下的模型并行训练方法，其特征在于，所述GPU 集群和所述 NPU集群采用的深度学习框架不同。 11.根据权利要求10所述的支持异构集群下的模型并行训练方法，其特征在于，所述支持异构集群下的模型并行训练方法支持多卡进行模型并行训练。 12.一种支持异构集群下的模型并行训练系统，其特征在于，所述支持异构集群下的模型并行训练系统包括：参数服务器、 GPU集群和NPU集群，参数服务器分别与GPU集群和NPU集群通信连接；参数服务器初始化numpy模型，将初始化后的numpy模型分别发送到GPU集群和NPU集群， GPU集群和NPU集群根据各自所使用的训练框架将初始化后的numpy模型加载到真实训练的模型中，再对真实训练的模型进行模型并行切分后训练； GPU集群和NPU集群分别在各自本地训练自定义预设大小的部分数据； GPU集群和NPU集群根据各自所使用的训练框架和采用的模型并行策略进行模型拼接，将切分到不同设备的模型合并成一个完整的模型，将完整的模型转换为统一的numpy格式，使得GPU集群和NPU集群得到的numpy模型一致；将numpy模型按照统一的切分方式进行切片后，传输到参数服务器，参数服务进行拼接处理；参数服务器接收到来自GPU集群和NPU集群的统一格式的numpy模型后，通过参数平均的方式对numpy模型进行融合，得到融合后的numpy模型；参数服务器将融合后的模型分片分发到各个训练集群，各个训练集群根据所使用的训练框架和模型并行策略对完整的numpy模型进行切分，切分后的模型分配到不同的设备上，并进行训练。 13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有支持异构集群下的模型并行训练程序，所述支持异构集群下的模型并行训练程序被处理器执行时实现如权利要求1 ‑11任一项所述的支持异构集群下的模型并行训练方法的步骤。权　利　要　求　书 2/2 页 3 CN 115471394 A 3

专利 一种支持异构集群下的模型并行训练方法及相关设备

专利一种支持异构集群下的模型并行训练方法及相关设备