为什么深度学习模型在GPU上运转更快
明确了,咱们如今把握了如何优化基本数组操作效率的方法。但在深度学习模型的通常中,咱们更多地须要处置矩阵和张量的操作。回忆咱们之前的示例,咱们仅经常使用了一维区块,每个区块蕴含N个线程。实践上,咱们可以口头更高维度的区块(最多可至三维)。因此,假设你须要启动矩阵运算,可以繁难地设置一个NxM的线程区块。在这种状况下,可以经过row = threadIdx.x和col = threadIdx.y来失掉矩阵的行和列索引。此外,为了简化操作,可以经常使用dim3数据类型来指定区块的数量和每个区块中的线程数。