随机变量:X是定义与样本空间上的函数。
随机变量的分布函数 (数据在统计图中的形状,叫做它的分布。) 随机变量的分布函数的性质同时也是判断分布函数的必要条件。
分布函数的运算要关注两边的端点是否包含着范围内,右端点的概率同存在情况一致,左端点的概率与情况相反。
离散型随机变量: 随机变量X的可能取值是有限个或可列个。
1)做某件事次数是固定的,用n表示。(在 n次重伯努利试验中) 2)每一次事件都有两个可能的结果(成功,或者失败) 3)每一次成功的概率都是相等的,成功的概率用p表示 4)你感兴趣的是成功x次的概率是多少 ▶ 描述随机事件A成功k次的概率,适用于n重伯努利模型。(区别于几何分布)
▶ 泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。(某个时间范围内,发生某件事情x次的概率是多大) ▶ 考察一个变量是否服从泊松分布,需要满足: ① 随机变量X是在一个区间(时间、空间、长度、面积等)内发生特定事件的次数; ② 一个事件的发生不影响其他事件的发生,即事件独立发声; ③ 两个事件不能同时发生; ④ 一个区间内一个事件发生的概率与区间的大小成比例。 【可以与指数分布的过程相比较】 ▶ 泊松分布是一种描述和分析稀有事件的概率分布,要观察到这类事件,样本含量n必须很大。它可以把大区间分成若干小区间,或把若干小区间合并成一个大区间(如研究交通事故的次数可以通过以月、年为单位统计)。 ▶ 泊松分布也常用于二项分布的近似计算,即当n很大而p很小时。 已知给定区间(时间/空间)内,事件平均发生次数(发生率);假设k为给定区间内时间/空间的发生次数。参数λ为每个区间内平均发生次数,或者称为发生率 。
▶ 指在 n次重伯努利试验中,试验r次才得到第一次成功的机率。即前r-1次都失败,在第r次成功的概率。 ▶ 示例:射箭第几次能够正中靶心、有放回的情况下第几次能取到期望颜色的小球等等,求这种多次进行的试验下第几次能够达到想要的目的。 判断是否是几何分布: 1)做某事件次数(也叫试验次数)是固定的,用n表示 2)每一次事件都有两个可能的结果(成功,或者失败) 3)每一次“成功”的概率都是相等的,成功的概率用p表示 4)你感兴趣的是,进行x次尝试这个事情,取得第1次成功的概率是多大。
▶ 超几何分布是产品抽样检查中用的,其实,它是二项分布的变体。 虽然超几何分布中也是只有两种结果产生但是实验结果不是独立的因为不放回!!也就是说你的第一次实验结果会影响到第二次。 ▶ 判断是二项分布或者是超几何分布的关键点就是实验结果是否是相互独立的也就是说第一次实验的结果是否会影响到第二次实验的概率,若无影响则为二项分布,若有则为超几何分布。
▶ 概率密度函数:用于直观地描述连续性随机变量(离散型的随机变量下该函数称为分布律),表示瞬时幅值落在某指定范围内的概率,因此是幅值的函数。连续样本空间情形下的概率称为概率密度,当试验次数无限增加,直方图趋近于光滑曲线,曲线下包围的面积表示概率,该曲线即这次试验样本的概率密度函数。 ▶ 分布函数:用于描述随机变量落在任一区间上的概率。如果将x看成数轴上的随机点的坐标,那么,分布函数F(x)在x处的函数值就表示x落在区间(-∞,+∞)上的概率。分布函数也称为概率累计函数。 ▶ 两者的区别:分布函数是概率密度函数从负无穷到正无穷上的积分;在坐标轴上,概率密度函数的函数值y表示落在x点上的概率为y;分布函数的函数值y则表示x落在区间(-∞,+∞)上的概率。
连续型随机变量的分布函数为连续函数,但不一定可导。 连续型随机变量取任意某个确定的值的概率均为0。
存在既非离散型又非连续型的随机变量。
▶ 均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 概率密度函数图像
分布函数图像
▶ 指数分布概率分布研究的是泊松过程的事件之间的时间间隔。如果每单位时间的事件数服从泊松分布,则事件之间的时间量遵循指数分布。 ▶ 因此,指数分布适用于描述独立随机事件发生的时间间隔。
正态分布特征趋向的原因:因为我们研究的对象具有同质性,所以其特征往往是趋同的,即存在一个基准;但由于个体变异的存在,这些特征又不是完全一致,所以会以一定的幅度在基准的上下波动,从而形成了中间密集,两侧稀疏的特征。
标准正态分布
正态分布的性质: 1)概率密度曲线在均值处达到最大,并且对称; 2)一旦均值和标准差确定,正态分布曲线也就确定; 3)当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交; 4)正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1 ; 5)均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度:标准差越大,正态曲线越扁平;标准差越小,正态曲线越陡峭。
【举例】