让你的Pandas代码快得离谱的两个技巧
假设你曾经经常使用过Pandas处置表格数据,你或者会相熟导入数据、荡涤和转换的环节,而后将其用作模型的输入。但是,当你须要裁减和将代码投入消费时,你的Pandas管道很或者开局解体并运转缓慢。在这篇文章中,笔者将分享2个技巧,协助你让Pandas代码快得离谱,优化数据处置效率并防止经常出现的圈套。
技巧1:矢量化操作
在Pandas中,矢量化操作是一种弱小的工具,它可以用一种更繁复和高效的模式处置整个数据框的列,而不是逐行循环。
它是如何上班的?
广播是矢量化操作的一个关键要素,它准许您直观地操作具备不同状态的对象。
eg1: 具备3个元素的数组a与标量b相乘,失掉与Source状态相反的数组。
eg2: 在启动加法运算时,将状态为(4,1)的数组a与状态为(3,)的数组b相加,结果会失掉一个状态为(4,3)的数组。
关于这一点曾经有很多文章,并且在深度学习中,大规模的矩阵乘法是十分经常出现的。在本文中,咱们将应用两个冗长的例子上启动探讨。
首先,假定您想要计算给定整数在列中产生的次数。以下是 2 种或者的方法。
"""计算DataFrame X 中 "column_1" 列中等于指标值 target 的元素个数。参数:X:>