pandas中文文档
pandas支持使用numexprlibrary和bottleneck库加速某些类型的二进制数值和布尔运算。
这些库在处理大型数据集时特别有用,并提供大量加速。 numexpr使用智能分块,缓存和多核。 bottleneck是一组专门的cython例程,在处理具有nans的数组时特别快。
以下是一个示例(使用100列x 100,000行DataFrames):
Operation | 0.11.0 (ms) | Prior Version (ms) | Ratio to Prior |
---|---|---|---|
df1 > df2 | 13.32 | 125.35 | 0.1063 |
df1 * df2 | 21.71 | 36.63 | 0.5928 |
df1 + df2 | 22.04 | 36.50 | 0.6039 |
强烈建议您安装这两个库。 有关更多安装信息,请参阅“推荐的依赖关系”一节。
默认情况下都可以使用它们,您可以通过设置选项来控制它:
版本0.20.0中的新功能。
pd.set_option('compute.use_bottleneck', False) pd.set_option('compute.use_numexpr', False)