CUDA卷积算子手写详细成功

如今深度学习大行其道,作为深度学习的基础软件设备,学习cuda也是很无心义的。本篇文章关键引见如何应用CUDA成功一个2D卷积算子,成功环节较为繁难,最终的成成成果可以在 较小的尺寸 下取得比cudnn快较大的性能。实测在以下参数性能下可以到达平均1.2倍cudnn的性能(文娱结果,还与cudnn性能无关,更小更快)。

您可能还会对下面的文章感兴趣: