大模型训练的GPU联手CPU显存优化剖析方法 GPU和CPU如何混合训练

2024-11-15

假设经常使用fluid.CUDAPlace指定了全局的运转设施，飞桨将会智能把允许GPU计算的OP调配在GPU上口头，但是当模型参数量过大并且显存有限时，很或许会遇到显存超出的状况。如上方的示例代码，embedding层的参数size蕴含两个元素，第一个元素为vocab_size(词表大小)，第二个为emb_size（embedding层维度）。实践场景中，词表或许会十分大。示例代码中，词表大小被设置为10,000,000，该层创立的权重矩阵的大小为(10000000, 150)，仅这一层就须要占用5.59G的显存。假设再加上其余的网络层，在这种大词表场景下，很有或许会显存超出。