针对医学研究观察单位间某变量的变异特点,利用数理统计和概率论的方法,研究医学数据收集、整理、分析,探讨事物分布特征和规律的一门学科。
调查研究设计
实验研究设计
科学、周密、简明
及时准确、完整、可靠
整理资料
选用统计指标、统计图表描述特征及分布
由样本信息推断总体特征
参数估计
假设检验
人体及人体健康有关的各种具有不确定性的医学数据,如变异、数量及同质
指所观察的事物、现象的某一方面性质或特征相同
指同质的事物、现象就某一方面的性质或指标来看仍然存在着差异
个体变异:同质的事物、现象就某一方面的特征或同一观察指标来看,不同的观察单位之间有差异。 e.g. 不同女孩的身高
e.g.同一女孩多次测量身高各不相同
e.g. 年龄,人口数,身高等。
e.g. 学历、性别等。
互不相容的类别和属性
e.g. 学历
e.g.性别
e.g. 血型
无限总体:总体中的个数是无限的,不可数的。
有限总体:总体中的个数是有限的,可数的。
根据研究目的确定的所有同志观察单位某种变量值(即观察值)的全体
总体中随机抽取部分观察单位的某种变量值(或观测值)的集合
观察单位间的同质性是构成总体的必备条件,也是进行研究的基本前提
泛指实测值与真实值之差,包括样本指标和总体指标之间的差。
随机测量误差
由于抽样而引起的样本统计量与总体参数间的变异
来源于个体变异
不恒定、随机变化、无方向性
遵从一定的规律
由于各种偶然因素的影响造成的
由一些固定因素产生
特点:观察值有系统性、方向性、周期性的偏离真值
研究人员的偶然失误
随机变量所有可能的取值与各取值下所发生概率之间的对应关系,用以全面的表述随机变量取值的概率。
同样条件下可能会出现两种或多种结果,具体结果,事先不能确定。
随机性,规律性
一次实验中一出现的事件的个数与该时间可能出现的个数之比。常用f表示
描述某随机事件发生可能性大小的度量。常用p来表示。
0<p<1
p≤0.05——发生可能性小
其取值范围与表示的意义一致
概率用于总体,频率用于样本
参数:总体的统计指标,用希腊字母表示
统计量:样本的统计指标,用拉丁字母表示
乘法法则
加法法则
条件概率
确定组数,组距,组限,频数
直方图
直接法
加权法
各个观察值与均数之差(离均差)的总和等于0
各个观察值离均差平方和最小
反应一组同质观察值的平均水平
单峰对称分布
正态分布特征
几何均数
不受极端值影响,适用于偏态分布或两端无确定数值时
任何频数分布,尤其是明显偏态分布的资料
常用描述定量资料集中趋势的统计指标——平均数,它反应一组观察值的集中位置和平均水平,可作为一组资料的代表值,用于不同组间的分析比较
简单明了,最简单
稳定性差,只受极端值的影响
不全面考虑极端值之外数值的影响——粗略指标
单峰对称分布,小样本资料
初步了解资料的变异程度
明显偏态分布、开放性资料、分布不明的资料
方差
还原与原始数据相同的计量单位
相差较大或单位不同
结构:标题,标目,线条,数字,备注
结构:标题,标目,刻度,图域,图例
表示连续变量频数分布情况
普通线图
描述研究指标变化的速度
描述偏态分布资料
用于比较两组或多组数据平均水平和变异程度。
用于比较多组资料的均值和标准差
两指标之间的关系
热图
森林图
单式条图
a.一般用横轴表示各分组,纵轴表示各分组对应的值
b.纵轴尺度必须从“0开始”,而且要等距
直条的宽度必须相等,间隔等距。
分组标志最好不超过三组
圆图
百分条图
主要用于分析分类变量数据的假设检验方法,该方法主要目的是推断两个或多个总体率或构成比之间有无差别。
原理
专用方式
矫正公式
在总体分布已知的前提下对参数进行的假设检验,如样本均数比较的t检验、方差分析等。
是一种不依赖总体分布类型,也不涉及总体参数,而是对总体分布的位置进行假设检验的方法。
配对设计资料的符号秩和检验
查表法
正态近似法
W-K检验或H检验
可信区间:区间估计是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体参数。事先给定的概率1-α称为可信度,计算得到的区间称为可信区间。
总体均数的区间估计
反映样本均数之间变异的标准差
定性比较总体参数之间有无差别或总体分布是否相同
建立假设和确定检验水准
选择检验方法和计算检验统计量
根据P值做出统计推断
抽样误差
真实情况与假设不一致,检验统计量的值却落到了接受域
检验效能:指当不同总体间确实有差别时,按规定的检验水准α能发现其差别的概率,其值为1-β。
单样本t检验
两独立样本均数比较的t检验
正态性,方差齐
小样本(n<50),总体方差未知
样本取自正态分布,总体方差相等
定量资料
在一定空间或时间范围内某现象的发生数与可能发生的总数之比
值在0~1之间波动
某部分增加,另一部分必然减少,呈此消彼长的关系
A或B两个有关联指标之比,用以描述两者之间的对比水平
又称优势比,表示病例组和对比组中的暴露比例与非暴露比例的比值之比,是反映疾病与暴露因素之间关联强度的指标
标准化率:在比较两种不同人群的患病率、发病率、死亡率等资料时,为消除其内部构成对率的影响,可以使用标准化率。
相对数指标使用的注意问题
概念:若随机变量X服从一个数学期望为μ、方差为σ²的正态分布,记为N(μ,σ²)
特征
μ=0;σ=1
医学参考值范围:从选择的参照总体中获得的所有个体观察值,用统计学方法建立百分位数界限,由此得到个体观察值的波动区间。
确定同质的参照总体
选择足够例数的参照样本
控制检测误差
选择单双侧界值
选择适当的百分数范围
选择计算参考值范围的方法
正态分布法
百分位数法
指大多数正常人的人体形态,功能和代谢产物等各项生理、生化指标观察值的波动范围,一般在临床上用作判断正常和异常的参考值(意义)
将总变异分解为2个或多个部分,除随机误差外,各部分的差异可由某个因素的作用加以解释
通过比较不同来源的变异,利用F分布做出统计推断,若F大于某个临界值,表示组间差异不同