Pandas 是一个强大的 Python 库,用于数据处理和分析。它提供了两种基本的数据结构:Series 和 DataFrame。
1. Series:Series 是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。
基本操作包括:
- 创建:`s = pd.Series(data, index=index)`
- 访问:可以通过索引值访问元素,如 `s[0]`
- 插入:`s[5] = 'new_value'`
- 删除:`del s[5]`
- 排序:`s.sort_values()`
2. DataFrame:DataFrame 是一个二维的表格型数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。
基本操作包括:
- 创建:`df = pd.DataFrame(data, columns=columns, index=index)`
- 访问:可以通过索引值访问元素,如 `df.loc[0, 'column_name']` 或者 `df.iloc[0, 0]`
- 插入:`df.loc[5] = {'column1': value1, 'column2': value2}`
- 删除:`df.drop(index=5, inplace=True)`
- 排序:`df.sort_values(by='column_name')`
- 筛选:`df[df['column_name'] > value]`
- 转置:`df.T`
- 合并:`pd.concat([df1, df2])`
- 分组:`df.groupby('column_name').mean()`
以上只是Pandas的基本操作,实际上它的功能非常强大,包括数据清洗、统计分析、数据可视化等等。