pandas中文文档
作者: 杨志勇
加速操作

pandas支持使用numexprlibrary和bottleneck库加速某些类型的二进制数值和布尔运算。

这些库在处理大型数据集时特别有用,并提供大量加速。 numexpr使用智能分块,缓存和多核。 bottleneck是一组专门的cython例程,在处理具有nans的数组时特别快。

以下是一个示例(使用100列x 100,000行DataFrames):

Operation 0.11.0 (ms) Prior Version (ms) Ratio to Prior
df1 > df2 13.32 125.35 0.1063
df1 * df2 21.71 36.63 0.5928
df1 + df2 22.04 36.50 0.6039

强烈建议您安装这两个库。 有关更多安装信息,请参阅“推荐的依赖关系”一节。
默认情况下都可以使用它们,您可以通过设置选项来控制它:
版本0.20.0中的新功能。

pd.set_option('compute.use_bottleneck', False)
pd.set_option('compute.use_numexpr', False)


标签: bottleneck、df2、df1、numexpr、加速
一个创业中的苦逼程序员
  • 回复
隐藏