均值、方差、协方差、中心矩、偏度、峰度
- 培训职业
- 2025-05-05 04:33:43
理解统计量实际意义,将其应用于实际问题。
四分位距(IQR)用于衡量数据的离散程度,它计算的是变量值中75%处值与25%处值之差。
四分位距、全距等描述变量值在中位数周围的离散程度,箱线图专门用于表现数据的离散程度。
方差是最佳的描述数据离散程度的量,它是各数据值与平均值之差的平方和的均值。方差本质是变量关于其期望的离散程度。
方差是随机变量X相对于其期望E[X]的离散程度,它是变量X的第二阶中心矩。
标准差为方差的平方根,用以衡量数据的离散程度。
协方差表示两个变量总体的期望差异,它衡量两个变量之间的关系。
若两个变量变化趋势一致,则协方差为正值;若变化趋势相反,则协方差为负值。统计独立的变量协方差为0。
线性相关系数是衡量两个变量间线性关系的指标,由协方差与各自方差的比值计算得出。
复相关系数用于描述因变量与多个自变量间的关系。
典型相关系数通过主成分分析得到的指标间的线性相关系数来衡量各组变量间的关系。
中心矩是相对于期望的值,一维随机变量X的第k阶中心矩为E[(X-E[X])^k]。中心矩揭示了随机变量分布的特征。
第0阶中心矩恒为1;第1阶中心矩恒为0;第2阶中心矩为方差;第3阶中心矩定义了随机变量的偏度,衡量分布的不对称性;第4阶中心矩定义了峰度,描述分布的尖峭程度。
协方差是X与Y的二阶混合中心矩,偏度衡量概率分布的不对称性,峰度描述分布的尖峭程度。
偏度为0表示正态分布,两侧尾部长度对称;偏度为负表示左偏,数据位于平均值左边的比右边的少;偏度为正表示右偏,数据位于平均值右边的比左边的少。
峰度小于3表示分布平缓,大于3表示分布陡峭。正态分布的峰度为3(实际中,峰度做减3处理);均匀分布的峰度为1.8。
数据标准化后,在相同标准差下,峰度越大,极端值越多。
多重随机标签