通明学练

通明学练

登录 | 注册

账号设置

反馈咨询

欢迎添加微信！

微信号: ngplot

微信二维码：

pandas

1 pandas基础 1.1 pandas介绍与安装 1.2 pandas的Series和DataFrame的基本操作 1.3 pandas的Index对象的理解与使用 1.4 pandas的基本统计分析函数的使用 2 pandas的数据读取与存储 2.1 pandas的CSV、Excel等文件的读取与写入 2.2 pandas的SQL数据库的读取与写入 2.3 pandas的HDF5和其他二进制格式的读取与写入 2.4 利用pandas进行数据清洗 3 pandas的数据处理 3.1 pandas的数据选择：布尔索引、位置索引和标签索引 3.2 pandas的数据过滤与排序 3.3 pandas的缺失值处理 3.4 pandas的数据转换：apply()，map()，applymap() 3.5 pandas的数据重塑：stack(), unstack() 4 pandas的数据合并与连接 4.1 pandas的concat()与append() 4.2 pandas的merge()与join() 4.3 pandas的数据透视表pivot_table() 5 pandas的分组与聚合 5.1 pandas的groupby()方法的使用 5.2 pandas的聚合函数agg()和transform() 5.3 pandas的对分组结果进行筛选和排序 6 pandas的时间序列处理 6.1 pandas的时间序列的数据结构：Timestamp和Period 6.2 pandas的时间序列的索引：DatetimeIndex 6.3 pandas的时间序列的操作：resample(), shift(), rolling() 6.4 pandas的时间序列的平移、对齐与频率转换 7 绘图与可视化 7.1 matplotlib库的介绍与使用 7.2 seaborn库的介绍与使用 7.3 pandas内置绘图函数的使用 8 进阶主题 8.1 大数据处理：Dask与Pandas 8.2 性能优化：numexpr与cython 8.3 使用pandas进行机器学习预处理

首页教程 pandas 大数据处理：Dask与Pandas

Dask和Pandas都是Python中用于数据处理的库。虽然它们在许多方面都相似，但它们在一些关键方面有所不同。首先，让我们来看看Pandas。Pandas是一个非常强大且灵活的数据分析库，它提供了一种高效的方式来处理表格型数据。Pandas的核心是DataFrame对象，这是一个二维表格型数据结构，类似于Excel的电子表格。Pandas提供了大量的函数和方法来操作DataFrame，如过滤、排序、分组、合并等。然而，Pandas有一个限制，那就是它只能在单个机器的内存中处理数据。这意味着如果你要处理的数据量超过了你的机器的内存，你将无法使用Pandas。这就是Dask出现的原因。 Dask是一个并行计算库，它可以扩展到多个机器和多个CPU核心。Dask提供了一个与Pandas类似的接口，包括一个类似DataFrame的对象，但它可以在分布式系统上运行。这意味着你可以使用Dask处理超过单个机器内存的数据。 Dask的另一个优点是它的灵活性。你可以使用Dask在单个机器上并行处理数据，也可以在分布式集群上处理数据。此外，Dask还可以与其他数据处理库（如NumPy和Scikit-Learn）一起使用。总的来说，如果你需要处理小到中等规模的数据，并且只需要在单个机器上进行处理，那么Pandas可能是最好的选择。但是，如果你需要处理大规模的数据，或者需要在分布式系统上进行处理，那么Dask可能是更好的选择。

日记关键词：

点击收藏编辑日记

NewMer首页数据挖掘 NGplot科研绘图

Copyright © 2021-2025 上海牛马人生物科技有限公司沪ICP备 2022007390号-2