临床试验的有效性和可靠性验证很大程度上依赖于统计学的正确应用。统计学为试验设计提供坚实基础,确保数据分析的严谨性与结果的客观性。为帮助大家更好地认识统计学,我们计划通过一系列专题文章,带领大家一步步揭开统计学的神秘面纱。
作为该系列的启航之作,本篇聚焦统计学的基本框架,带领大家踏上统计学探索之旅的第一站。我们将细致讲解统计学的几大基本元素:研究对象、随机现象的基本规律、中心极限定理、正态分布以及生物统计的特殊性。
01/ 统计学的研究对象
概率论与统计学的关系概率论是研究随机现象的数量规律的数学学科。而统计学则是从这种随机现象中获取信息、发现规律并指导决策的数学学科。
这两个学科之间存在怎样地本质性区别呢?对比以下两张图,我们可以知道:
概率论是已知总体来推测样本。设定桶里有两种小球。在概率论的角度,桶是透明的可以清楚地知道桶里小球的情况。伸手抓一把出来,因为已经预先知道了小球的颜色比例分布情况,所以能够快速地估算出手里每种小球的概率。
统计学刚好相反,是已知样本来推测总体。在统计学的角度,桶不是透明的,我们不知道桶里小球的情况。必须抓一把出来,从手里面少数小球的情况来推测桶里所有小球的颜色比例分布情况。
总而言之,概率论是知因求果,而统计学是执果索因。概率统计广泛应用于各个领域:自然科学、社会科学和工程技术等领域。医学研究中的临床试验设计、数据分析、流行病研究等;生物学研究中的生物信息大数据分析、生态学规律等;社会科学研究中的人口调查、教学质量评估、政府决策等;工程技术领域中的自然灾害预测、工程故障预测等。统计学在各领域的应用存在不同之处。我们将从生物统计学角度进行探讨。
总体、样本和个体
我们来看一下临床试验中的总体、样本和个体的概念区分:
总体:符合入排标准的全体人群
个体:符合入排标准的个人(即患者或者健康志愿者)
样本:从总体中随机抽取一部分个体(受试者)而构成的总体子集
样本(容)量(sample size):样本中的受试者数量
变量:总体或样本中,个体的有效性/安全性终点
在我们日常工作中就以上的概念可能会存在误用现象。这里我们列举两个常见的问题:
1) 在撰写临床方案时到底是用“患者”还是“受试者”进行表述?
如果从总体(即全体人群)的角度可以用“患者”,如果从一个具体的试验项目角度,针对已经入组的患者就应该用“受试者”。
2)“1组样本”、“比较两组样本之间的差异”的表述正确吗?
从数学角度而言,样本和总体都是集合,而个体是集合中的元素。即个体属于样本,而样本是包含于总体的(个体∈样本⊂总体)。所以像“1组样本”、“比较两组样本之间的差异”等这样的表述是错误的。严谨的表述应该是:“1例个体或1例受试者”、“1组个体或1组受试者”、“1个样本”;“比较两组受试者之间的差异性或比较两个样本之间的差异”。
02/ 随机现象的基本规律
频率与概率
想要了解随机现象的基本规律,首先要理解和区分频率和概率,并需要知道什么是决定性事件、随机事件与频率稳定性。
决定性事件即必然事件(概率为1)或不可能事件(概率为0)。而随机事件是结果呈现偶然性的事件(0<概率<1)。统计学中面对的事件绝大部分都是随机事件。设随机事件A在n次试验中出现了m次,则其频率定义为Fn(A)=m/n。随机事件A的频率Fn(A)常在某个固定的常数附近摆动,这种规律性称为频率稳定性或统计规律性。
概率的定义是:随机事件A发生的可能性大小即为A的概率,记为P(A)。概率有三条基本性质:1、非负性的:任意事件A,0≤P(A)≤1。2、规范性:必然事件A,P(A)=1;不可能事件A,P(A)=0。3、可列可加性:互斥事件A和B,P(A)+ P(B)=P(A+B)。
虽然概率的定义在不同的统计学派(如经典频率学派和贝叶斯学派)之间有所不同,但必须满足上述基本性质,才是被合理定义的。
独立重复试验与大数定律
这里列举两个经典的独立重复试验:抛硬币试验与掷骰子试验。投硬币试验出现正面与反面的频率都在1/2上下跳动。掷骰子试验出现每个点数的频率都在1/6上下跳动。频率围绕着“跳动”的中心值为概率,大数定律保证了这种“跳动”最终的收敛性。
历史上有多位数学家先后提出并证明了不同的大数定律,我们这里仅介绍最常见的“伯努利大数定律”。伯努利大数定律:对于试验种可能出现的某个结果(称为事件)A,对任意ε>0,“A的频率与概率之差小于ε”这一事件的概率随着试验次数n的无限增大而趋近于1。
(伯努利大数定律公式)
03/ 中心极限定理和正态分布
中心极限定理
我们通过一个实验来进行解释——高尔顿实验。
将很多小球从高尔顿板的最高处中心落下,小球碰到钉子随机滑入两边,最终落入底部凹槽。每个小球落下都是一次独立试验,多个小球落下成为独立重复试验。每个小球落点的水平位置视为随机变量X,每个凹槽中小球叠放的高度(小球数量)可视为随机变量X的概率密度。
我们来看一下实验结果:X服从二项分布,设钉板共有n层,凹槽共有n+1个,从左往右第k个凹槽的水平位置为k-1。那么,小球落入第k个凹槽的概率为
如果我们细心观察会发现自然界中的很多数据都会呈现出这种“中间高两边低”的趋势。那么,这是什么原理呢?实际上这就是中心极限定理。
对于独立同分布的随机变量(X₁、X₂......Xn),求和转化后得到一个新的随机变量(Yn)。随着钉板的层数向无穷趋近,凹槽将越来越细密。最终得到一个极限分布——正态分布。
中心极限定理证明了自然界大量数据的正态分布规律:炮弹落点、农作物产量、智商、红细胞数等,这也是统计推断的核心理论。
正态分布
正态分布也称高斯分布,是指密度函数为:
的分布。其中,参数μ和σ为正态分布总体的均值和标准差。这两个参数是未知的,它们也是很多统计推断的对象。
除了二项分布,像卡方分布、泊松分布、T分布、F分布……的极限分布都是正态分布。
04/ 生物统计的特殊性
小样本
相较于其他学科领域,由于临床试验存在成本和伦理等的多重要求,生物统计的研究对象永远都是小样本。小样本就不可避免地要面对较大的抽样偏倚。生物统计对样本量的估算本质上是用已知样本估计总体,再用总体估计未知样本。
然而现实是,在生物统计中我们是不知道总体参数的。只能通过Ⅱ期试验的结果,用点估计的方式去推测总体参数,这就会产生很大的偏倚性。
数据分布难以通过正态性检验
满足正态分布的数据在分析时能享受到很多“特权”。很多参数检验的统计方法都适合于它。但临床数据在小样本情形下很多时候难以通过正态性检验。所以我们一般建议:在正态性不被明确的研究结果推翻的情形下,尽量采用正态性方法,以保证检验功效和结果的可解释性。
数值变量的连续性
临床试验收集的数据精度有限,比如通过仪器测量的数据会受到仪器精度的影响,通过量表评价的数据会受到量表精度的影响。我们在评价这些数据指标时,除了无序的分类变量外,本质可以认为大部分数据理论上是连续的,选择统计方法时,在数据不是过度离散的前提下,我们可以默认是连续的。对变量的表述也可不必过于强调其连续与否,可以笼统的成为数值型变量。