▶ 总体:所研究对象的某项指标的全体,记为X;其中构成总体的每个元素称为个体。
▶ 样本:从总体中随机抽取若干个体构成的集合;
简单随机样本:即满足样本中的若干个体相互独立,且每个个体与总体X分布相同。
观察值:样本中的一组抽样取值,被称为该样本的一组观察值。
▶ 统计量:以简单随机样本为变量所构成的不含任何参数的函数。
常见的统计量
样本均值、样本的k阶原点矩、样本的k阶中心距、样本方差。
▶ 原点矩是指随机变量到原点的距离,如k阶原点矩就是指样本k次方的均值。
▶ 中心距则类似于方差,是需要得到样本的期望即均值,然后计算随机变量到样本均值的一种距离;与方差不同的是,这里所说的距离不再是平方就能构建出来的,而是k次方。
① 二阶中心距,也叫作方差,表示一个随机变量在它均值附近波动的大小;
② 三阶中心距,描述一个随机密度函数向左或向右偏斜的程度。
▶ 在样本方差S2的公式中分母上是n-1,就是因为当给定均值时,x1, x2, ..., xn这n个数据中,前n-1个数据都可以自由取值,而第n个数据受到全部数据的平均值的约束,不能自由取值。第n个数据可由公式求得,因此,S2的自由度是n-1。所以,所谓“自由度”就是指可以自由取值的数据的个数,或者指不受任何约束,可以自由变动的变量的个数。
▶ n个独立、标准正态分布的随机变量的平方和服从自由度为n的卡方分布。
▶ 在不知道总体均值的情况下,来假设总体的方差。
卡方分布的密度函数图像
▶ 当自由度 n 越大, 卡方分布的密度曲线越趋于对称,。
▶ 当 n = 1, 2 时曲线是单调下降趋于 0. 当 n ≥ 3时曲线有单峰, 从 0 开始先单调上升, 在一定位置达到峰值, 然后单下降趋向于 0。
性质
▶ χ2分布具有可加性:若有K个服从χ2分布且相互独立的随机变量,则它们之和仍是χ2分布,新的χ2分布的自由度为原来K个χ2分布自由度之和。
▶ t分布用于检验均值是否不同。即在不知道总体方差的情况下,来假设总体的均值。即正态样本中样本均值和标准差的比值的分布。
▶ t分布密度函数与标准正态分布 N(0, 1) 密度很相似, 它们都是关于原点对称, 单峰偶函数, 在 x = 0 处达到极大.;但t分布的峰值低于N(0, 1) 的峰值。
性质
▶ F分布用于检验方差是否不同。即在不知道两个总体的均值,但知道其中某个方差的情况下,假设另一方差。
▶ 注意 F 分布的自由度 m 和 n 是有顺序的, 当 m≠n时, 若将自由度 m 和 n 的顺序颠倒一下, 得到的是两个不同的 F 分布。
▶ 从上图可见对给定 m = 10, n 取不同值时f_{m,n}(x) 的形状, 我们看到曲线是偏态的, n 越小偏态越严重。
三大分布的数学细节
4、正态总体常见的分布
▶ 样本方差之所以要除以(n-1)而不是n,是因为这样的方差估计量才是关于总体方差的无偏估计量。在公式上来讲的话就是样本方差的估计量的期望要等于总体方差。
▶ 在统计学中,自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数,称为该统计量的自由度。一般来说,自由度等于独立变量数减掉其衍生量数;举例来说,方差的定义是样本减平均值(一个由样本决定的衍生量)的平方之和,因此对N个随机样本而言,其自由度为N-1。
证明
(样本均值与总体均值之差)与样本标准差之比服从t分布
证明
(n-1)×样本方差与总体方差之比 服从卡方分布
证明
证明