偏态和峰度是描述数据分布形态的两个重要参数。它们可以帮助我们了解数据的形状,例如它是对称的、偏斜的还是尖峰的。
1. 偏态:衡量数据分布的对称性或偏斜程度。如果数据分布是对称的,那么偏态系数接近于0;如果数据分布偏向一边(左偏或右偏),则偏态系数为负或正。例如,正态分布的偏态系数为0,因为它是完全对称的。而偏态系数大于0的数据分布,通常被称为右偏分布,如投资收益率等;偏态系数小于0的数据分布,通常被称为左偏分布,如人的体重等。
2. 峰度:衡量数据分布的陡峭程度或平坦程度。如果数据分布与正态分布相比更加集中,即“峰”更高、“尾”更短,那么峰度系数大于0,这种分布被称为尖峰分布。相反,如果数据分布比正态分布更分散,即“峰”更低、“尾”更长,那么峰度系数小于0,这种分布被称为扁平分布。在正态分布中,峰度系数为3。
需要注意的是,偏态和峰度都是相对的度量,其值会受到样本大小的影响。因此,在比较不同样本的偏态和峰度时,需要保证样本大小的一致性。