Pandas的pivot_table()函数是一个非常强大的数据整理工具,它可以将原始数据转换为更易于分析的形式。这个函数的主要作用是创建一个数据透视表,这是一种多维的数据表格,可以方便地对数据进行汇总和统计。
在使用pivot_table()函数时,需要指定以下参数:
1. data:这是你想要操作的数据集。
2. values:这是你想要聚合的值,也就是你想在每个分组中计算的统计数据(如平均值、总和等)。
3. index:这是你想要作为行标签的列名。
4. columns:这是你想要作为列标签的列名。
5. aggfunc:这是你想要使用的聚合函数,默认为mean(平均值)。
例如,假设我们有一个包含学生信息的数据集,包括学生的姓名、班级和成绩。我们可以使用pivot_table()函数来创建一个数据透视表,其中行标签是学生的名字,列标签是课程的名称,单元格中的值是学生的成绩。
```python
import pandas as pd
# 创建一个示例数据集
data = {
'Name': ['Tom', 'Nick', 'John', 'Tom', 'John'],
'Class': ['A', 'B', 'A', 'B', 'A'],
'Subject': ['Math', 'English', 'Math', 'Math', 'English'],
'Score': [90, 80, 85, 95, 82]
}
df = pd.DataFrame(data)
# 创建数据透视表
table = df.pivot_table(values='Score', index=['Name'], columns=['Subject'])
print(table)
```
输出结果:
```
Subject English Math
Name
John 82.0 85.0
Nick NaN NaN
Tom NaN 92.5
```
在这个数据透视表中,我们可以看到每个学生在每门课程中的成绩。