制药统计工具——置信区间的计算和应用
QAQC

1.置信区间简介

置信区间(CIs)是统计学中的一个关键概念,特别是在制药领域,结果需要可靠和准确。置信区间是一个范围,其中未知参数(如总体平均值或比例)可能在一定的置信水平下落入该范围。置信区间用于量化从样本数据得出的估计值的不确定性。

置信区间是通过将误差范围加减到样本估计值来构造的。误差范围由所需的置信水平(通常为95%或99%)和数据的可变性决定。计算总体平均值(µ)的置信区间的公式如下:

CI = X̄ ± (Z * (σ / √n))

其中:

CI是置信区间

X̄是样本均值

Z是与所需置信水平相对应的Z分数(例如,95%置信水平的Z分数为1.96)

σ是总体标准差

n是样本大小

如果总体标准差(σ)未知,我们可以使用样本标准差(s)和t分布代替Z分数:

CI = X̄ ± (t * (s / √n))

制药实例:片剂重量均匀性

假设您为一家生产片剂的制药公司工作,负责确保产品质量。一个重要的质量属性是片剂重量的均匀性。您的目标是95%地确信平均片剂重量在指定范围内。

您从一个大批次中随机选择了50片片剂并测量了它们的重量。样本均值(X̄)为500毫克,样本标准差(s)为6毫克。

计算过程:

确定所需的置信水平。

在这种情况下,我们希望达到95%的置信度,因此需要找到适当的t值。由于我们有一个样本大小(n)为50,所以我们有49个自由度(n - 1)。使用t表或计算器,我们发现95%置信度和49个自由度的t值约为2.01。

计算误差范围。

误差范围 = t * (s / √n)

= 2.01 * (6毫克 / √50)

= 2.01 * (6毫克 / 7.07)

= 2.01 * 0.85毫克

= 1.70毫克

计算置信区间。

CI = X̄ ± 误差范围

= 500毫克 ± 1.70毫克

=(498.30毫克,501.70毫克)

解释:我们有95%的信心,该批药片的真实平均重量在498.30毫克和501.70毫克之间。这一信息可用于对产品的质量以及是否需要对生产过程进行任何调整做出合理的决定。

2.置信区间不同样本量的计算:

置信区间的计算方式在不同样本量(即样本大小)时基本相同,但有一些细节上的差异。这些差异主要在于使用Z-分数还是t-分数。以下是不同情况下计算置信区间的方法:

大样本量(通常n ≥ 30):
对于大样本量,我们通常使用正态分布(Z-分数)来计算置信区间,因为在大样本的情况下,根据中心极限定理,样本均值会趋向于正态分布。置信区间的计算公式为:

CI = X̄ ± (Z * (σ/√n))

其中:

CI 是置信区间
X̄ 是样本均值
Z 是与期望置信水平相对应的Z-分数
σ 是样本标准差(若总体标准差已知,则使用总体标准差)
n 是样本数量
小样本量(通常n < 30):
对于小样本量,我们使用t分布(t-分数)来计算置信区间,因为在小样本的情况下,总体分布可能不是正态分布,而t分布能够更好地适应小样本情况。置信区间的计算公式为:

CI = X̄ ± (t * (s/√n))

其中:

CI 是置信区间
X̄ 是样本均值
t 是与期望置信水平和自由度(n-1)相对应的t-分数
s 是样本标准差
n 是样本数量
总结:在不同样本量时,置信区间的计算方式基本相同,但在大样本量时使用Z-分数(正态分布),而在小样本量时使用t-分数(t分布)。这是因为在大样本量时,中心极限定理保证了样本均值近似正态分布,而在小样本量时,t分布能更好地适应不同的总体分布。

我们将分别用一个小样本量(n=7)和一个大样本量(n=40)的例子来说明置信区间的计算方法。假设我们要评估两种药物的有效成分(API)浓度。

例子1:小样本量(n=7)

假设我们收集了7个样本,得到以下API浓度数据(单位:毫克/毫升):8.9, 9.3, 10.1, 9.7, 9.9, 10.3, 9.5。我们要计算API浓度的95%置信区间。

首先计算样本均值(X̄)和样本标准差(s):

  • X̄ = (8.9 + 9.3 + 10.1 + 9.7 + 9.9 + 10.3 + 9.5) / 7 ≈ 9.67
  • s ≈ 0.51(假设已经计算出来)

我们使用t分布计算95%置信区间:

  • 自由度(df)= n - 1 = 7 - 1 = 6
  • 查询t分布表,95%置信水平下,t值约为2.447。

CI = X̄ ± (t * (s/√n)) CI = 9.67 ± (2.447 * (0.51/√7)) CI ≈ 9.67 ± 0.45 置信区间为(9.22, 10.12)。

例子2:大样本量(n=40)

假设我们收集了40个样本,样本均值(X̄)为9.8毫克/毫升,样本标准差(σ)为0.4毫克/毫升。我们要计算API浓度的95%置信区间。

我们使用正态分布(Z-分数)计算95%置信区间:

  • 95%置信水平下,Z值约为1.96。

CI = X̄ ± (Z * (σ/√n)) CI = 9.8 ± (1.96 * (0.4/√40)) CI ≈ 9.8 ± 0.12 置信区间为(9.68, 9.92)。

总结:在这两个例子中,我们可以看到小样本量(n=7)的置信区间较宽(9.22, 10.12),而大样本量(n=40)的置信区间较窄(9.68, 9.92)。这表明,随着样本量的增加,置信区间变得更窄,对总体参数的估计越精确。此外,对于小样本量,我们使用t分布;对于大样本量,我们使用正态分布。

3.置信区间和置信水平(置信度)的区别

置信区间(CI)是一个值范围,用于估计总体参数(如均值或比例)在某个置信水平下可能落入的范围。它用于表示与样本统计量相关的精确性和不确定性,样本统计量是从数据样本中得出的。置信区间越宽,对真实总体参数的不确定性就越大。

置信水平,另一方面,是置信区间包含真实总体参数的概率。它通常表示为百分比,如95%或99%。95%的置信水平意味着,如果我们多次重复抽样过程,并为每个样本计算置信区间,那么大约95%的区间将包含真实的总体参数。

药物生产过程质量的例子:

假设一个药物生产过程,要求维持活性药物成分(API)浓度在一个特定范围内,以确保其疗效和安全性。

质量控制团队收集了100批药物的随机样本,发现平均API浓度为10毫克/毫升,标准差为0.5毫克/毫升。他们想要在95%的置信水平下估计整个生产过程的真实平均API浓度。

为了计算95%的置信区间,团队使用以下公式:


CI = X̄ ± (Z * (σ/√n))

其中:

CI 是置信区间

X̄ 是样本均值(10毫克/毫升)

Z 是与期望置信水平相对应的Z-分数(95%置信水平下的1.96)

σ 是样本标准差(0.5毫克/毫升)

n 是样本数量(100)

CI = 10 ± (1.96 * (0.5/√100))

CI = 10 ± (1.96 * 0.05)

CI = 10 ± 0.098

 

API浓度的95%置信区间为(9.902毫克/毫升,10.098毫克/毫升)。这意味着质量控制团队可以95%地确信,整个生产过程的真实平均API浓度在这个范围内。如果API浓度的指定范围在置信区间内,那么药物生产过程可以认为满足期望的质量标准。