。
表1 各应用方面的监管要求、主要法规政策和常用统计学方法 |
| | | |
| 在配方和工艺开发中运用试验设计的方法理解产品和工艺。确定物料属性和工艺参数与关键质量属性的关系,系统地识别变异来源 | | |
| 样本量和检验间隔基于统计学标准,以保证对稳定性合理的估计 | | |
| | | |
| 合理的中间控制质量标准应当运用恰当的统计学方法确定,放行标准应保证药品批次满足恰当的质量标准和统计质量控制标准 | | |
| 收集物料、中间产品和成品的质量数据,通过统计工艺控制方法持续监控工艺趋势,评价工艺能力 | | |
| 取样容器数和每个容器应取的物料量,应当依据恰当的标准,如变异性、置信区间、精确度等统计学标准 | | |
1.1 配方和工艺优化
FDA《工艺分析技术
——创新药品开发、生产和质量保证的框架》指南
[16]建议,对于配方和工艺的知识来自于对多因子关系的科学理解,可以得益于运用多变量数学方法,如试验设计,响应曲面等方法。数学关系和模型知识的适用性、可靠性可以通过对模型预测能力的全面统计学评估得到。
ICH指南
Q8(R2)《药品开发》提出
“质量源于设计
”的理念,建议在配方和工艺开发中运用试验设计的方法理解产品和工艺。
Q11《原料药开发和生产》
[17]建议,通过试验设计的方法识别和确定
物料属性和工艺参数与
关键质量属性的关系,系统地识别变异来源。
1.2 稳定性研究和有效期确定
1.3 分析方法验证
21 CFR 211.165小节
“成品检验和放行
”要求,
“证明和记录分析方法的精密度、灵敏度、专一性和重复性
”。
FDA《治疗性蛋白免疫原性分析方法开发》指南草案
[22]中建议,应当采用统计学方法,通过阴性对照样本确定分析方法的临界点。《生物分析方法验证》指南草案
[23]建议,响应方程通过恰当的统计学检验。《药品和生物制品的分析流程和分析方法验证》指南草案
[24]建议,运用统计学方法分析验证数据、对比分析方法。
ICH指南
Q2(R1)《分析方法验证:文本和方法论》
[25]涉及分析方法验证的统计学考虑。
1.4 中间控制和放行标准制定
21 CFR 211.110小节
“中间产品和成品
取样和检验
”要求,
“合理的中间控制质量标准应当与药品最终
质量标准一致。如果可能,应当由历史中可接受的工艺均值和变异估计得到。适用时,应当运用恰当的统计学方法确定。
”211.165小节
“成品检验和放行
”要求,
“质量部门的取样和检验的接受标准应恰当地保证药品批次满足每一项恰当的质量标准和统计质量控制标准,作为批准放行的条件。统计质量控制标准应当包含恰当的接受水平和(或)拒绝水平。
”USP 37凡例中说明,
“个论、附录和凡例有关的标准,从药品生产到有效期期间的所有时间都适用。生产者的质量标准,
CGMP实践(包括诸如质量源于设计的提议)都必须保证药品在有效期内符合药典标准。也就意味着,药典收录的药品一旦经过药典流程检验,必须符合标准以表明合规。尽管有时药典标准涉及统计学流程,取多个样本,通过顺序的流程设计确定被测样本是否符合标准,但所有情况下,关于是否符合药典标准的结论都只适用于被检验的样本。
检验的重复,统计学拒绝异常值,将检验结果外推到更大范围,合适的批检验频率,都不在
USP中论述。企业可以根据药品特征,制定适合于风险的中间控制和放行标准,在一定的置信度上保证药品凡经检验,都符合标准。
”[26] 1.5 工艺和质量监测
21 CFR 211.110小节
“中间产品和成品取样和检验
”要求,
“应当建立书面的中间控制规程,对每批产品的中间物料取样
检验,监测可能对中间物料和药品质量属性带来变异工艺。
”FDA《工艺分析技术
——创新药品开发、生产和质量保证的框架》指南建议,多变量统计工艺控制可以发挥实时测量的优势。《药品
CGMP法规的质量体系途径》指南
[27]建议,通过统计工艺控制方法持续识别和评估工艺趋势。《正电子放射断层造影剂
——CGMP》指南
[28]建议,恰当的实验室控制可以采用统计工艺控制的方法对质量属性连续地监测。《工艺验证》指南建议,在日常生产中持续地收集相关工艺趋势,物料、中间产品和成品的质量数据,由经专门训练的人员负责统计学趋势分析并审核。建议由统计学家或受过充分的统计工艺控制技能训练的人员制定数据收集方案和用于衡量工艺稳定性和工艺能力的统计学方法和流程。
ICH 指南
Q8(R2)《药品开发》指南建议,在生产中运用统计工艺控制的方法监测生产工艺。
Q9《质量风险管理》列出建议使用的常用统计学工具,包括控制图,工艺能力分析等。
1.6 取样方案
21 CFR 211.84小节
“物料取样和检验
”要求,
“取样容器数和每个容器应取的物料量,应当依据恰当的标准,如成分变异性、置信区间、精确度等统计学标准。
”FDA《工艺验证》指南中建议,
取样样本量应足以达到充分的统计学置信程度,保证批内和批间质量。
2 常用统计学方法
试验设计(DoE,Design of Experiments)、统计工艺控制(SPC,Statistical Process Control)和验收取样(acceptance sampling)分别是“质量源于设计”,“质量源于生产”和“质量源于检验”三个质量管理阶段的主要统计学方法。
2.1 试验设计
试验设计是
“质量源于设计
”阶段常用的质量管理方法,用于研究影响因子(
factor)和响应变量(
response)的关系。试验中干扰因子的存在使得即便将影响因子控制在相同水平,试验结果也无法精确重复。干扰因子可分为三类,第一类是可测且可控的干扰因子,例如在研究工艺参数对
质量属性的影响时,原料批间差异的干扰。这类干扰可以通过区组设计等方法排除。第二类是可测而不可控(不论是技术原因还是成本考虑)的干扰因子,例如压片室环境湿度的变化。这类干扰可通过协方差分析等方法排除。第三类是不可测或不可知的干扰因子,可以看作工艺各个步骤中许多微小扰动引起的试验结果的随机波动。试验设计方法用于在干扰因子的存在下,用尽量少的试验数,得出影响因子与响应变量关系尽量可靠的结论。
试验设计按目的通常可分为两个阶段,第一阶段为因子筛选(screening)试验,用形式简单而精确度较低的数学模型,通过较少试验从候选因子中筛选出少数对响应变量有显著影响的重要因子。第二阶段为响应曲面(response surface)的刻画(characterization)试验,用较为复杂的数学模型,得到这些重要影响因子与响应变量较为精确的函数关系。
2.1.1 基本原理
试验设计的基本原理是用经验模型近似影响因子和响应变量之间的真实函数关系。在经验模型中引入随机波动后成为统计模型。统计模型在一些前提假设上得到的统计学性质,用于指导试验点的选取,估计经验模型的参数并评估估计的精确性,评价经验模型选取的恰当性。
当影响因子为连续型变量时,经验模型可以用连续函数表示,用回归分析等统计学方法求解。而当影响因子为非连续型变量时,经验模型不是连续方程,需要用方差分析等统计学流程解决。
A. 连续型变量试验设计
研究因子x1(例如,压片速度)和x2(例如,压片压力),对响应变量y(例如,30分钟溶出度)的影响。控制其余条件不变,影响因子x1,x2和响应变量y的关系可以用函数y=g(x1, x2)表示。一般地,y和f个因子的相关关系,可以用函数y=g(x1, x2..., xf )表示。多数情况下,真实的函数关系未知,需要选取恰当的函数形式近似。最简单的经验模型只包含常数项和一次项系数: (1)
其中,n是试验数。xij称为第i个试验中第j个因子的取值水平,共f个因子。y1是对应的响应变量取值。参数β0和βj分别是经验模型的常数项和一次项系数,共p=f 1个参数。将随机波动记作随机误差εi,(1)式改写为统计模型:
(2)
用矩阵形式表示:
(3)
其中,X是(n×p)矩阵,y是(n×1)向量,β是(p×1)向量,ε是(n×1)向量。当εi服从互不相关的、均值为零且方差Var(εi)=σ2的统计分布时,可求得β的最小二乘估计:
(4)
由n个试验的观测值计算得出,是随机向量,即在相同条件下重复n个试验,将得到新的值。的协方差矩阵Cov( )衡量重复试验中得到的估计值 在真实值β附近的波动大小: (5)
在随机波动大小σ2确定时, 的协方差矩阵仅依赖于矩阵X,即试验设计中各因子水平的选取,不依赖于试验结果。下文将介绍的常用设计中因子水平的选取原则,均以 的协方差矩阵为基础。特别当(XTX)为对角矩阵时,参数的估计值之间相互独立,称设计具备正交性(orthogonality)。
进一步当εi服从正态分布时,βj服从正态分布,可以构造参数βj的置信区间,评价估计的精确度。也可以利用假设检验(一次试验得到的估计值 j是否比给定的边界值更极端,以至于不太可能在βj=0成立时得到)、计算p值(在βj=0成立时,出现比一次试验得到的估计值 j更极端结果的概率)等统计学流程,检验参数估计值的统计学显著性。参数 j统计学显著意味着有信心认为因子有不为零的效应( j≠0 ),效应大小是否有实际意义则需要结合实情判断。
得到估计值 后,可以预测响应变量y在某点x=x0处的平均响应 = 。预测值是随机变量,服从均值为,方差为的正态分布。可以构造y(x0)的置信区间(又称为“预测区间”),评价模型在x=x0处预测平均响应值的精确度。预测精确度也是评价试验设计的重要指标。
注意,如果
εi背离互不相关性或零均值、同方差前提,估计值
将存在系统偏倚(
bias)。如果
εi背离正态性前提,置信区间、统计推断和预测区间等结论将不可靠。在得出结论前应当先检验模型假设的符合性。在一些不符合的情形下,可以尝试数据变换
[33]、改用更复杂的线性模型
[34]或改用广义线性模型
[35]等修正措施。
B. 非连续型变量的试验设计
研究因子A(例如,填充剂类型,乳糖、磷酸钙和微晶纤维素)和B(例如,压片机型号,甲、乙和丙),对响应变量y(例如,30分钟溶出度)的影响。由于A和B是非连续型变量,不能用连续函数表示与A和B的关系,常用效应模型表示:
(6)
其中,n是A和B所有水平组合的试验的重复次数。yijk是响应变量在第k次重复中,因子A在第i水平,因子B在第j水平时的取值。参数μ称为总均值效应。参数τi称为因子A在第i水平的主效应,共a水平。参数βj称为因子B在第j水平的主效应,共b水平。参数(τβ)ij 称为τi与βj的交互效应(interaction)。多于两因子的效应模型类似地包含总均值效应、主效应、交互效应和随机误差项。
当随机误差εijk服从互不相关的、零均值且同方差σ2的正态分布时,可求得各参数的最小二乘估计。方差分析(ANOVA,ANalysis Of VAriance)等方法可以检验因子效应的统计学显著性,评价估计的精确度。在得出结论前同样应当先检验模型假设的符合性。
当因子有确切的取值水平时,称模型为固定效应模型(fixed effect model)。当因子的取值水平随机,称模型为随机效应模型(random effect model)。两类模型的统计学流程和解释均有差异。固定效应模型的结论只适用于参与研究的水平,而随机效应模型的结论可以外推到随机选取的任意水平,并可以通过方差成分分析(variance component analysis)方法计算模型中各因子变异和随机误差分别对总变异的贡献。
例如,研究乳糖、磷酸钙和微晶纤维素三种填充剂类型的试验,适用于固定效应模型,结论只适用于参与研究的三种填充剂;而任选三个批次用于稳定性研究,适用于随机效应模型,结论可以外推到随机选取的其它批次。
2.1.2 因子筛选设计
因子筛选试验通过形式简单而精确度较低的经验模型,从候选因子中筛选出少数对响应变量有显著影响的因子。因子为连续型变量时,通常采用带常数项、一次项和交互效应项的经验模型:(7)
参数β0,βj,βjk和βjkl等分别是经验模型的常数项、一次项系数、一阶交互效应项系数和高阶交互效应项系数,共p=2f个。参与研究的因子一般多于两个,因子取值一般仅两水平,所需试验数相对少。筛选试验的经验模型与真实函数的近似度不高,不宜用于预测响应变量的取值。
A. 两水平全析因设计
两水平全析因设计(2fFD,Factorial Design)适用于因子数较少的筛选试验,试验包含f个因子两水平取值的全部组合,试验数n=2f 。
以三因子两水平全析因设计(23设计)为例,23设计共需要n=23=8个试验,研究空间(各因子水平取值范围的几何表述形式)呈立方体,试验点(一次试验中,各因子水平的几何表述形式)是立方体的各顶点,如图1。取值-1和 1分别代表因子的低水平和高水平值。在试验设计中使用规范变量-1和 1对应于自然变量,一方面可以避免由于物理单位不同带来的干扰,另一方面规范变量更容易保证正交性。
带交互效应项的线性模型共
2f个参数,而
2f个试验只能求得一组确切的参数,无法估计随机误差
εi,判断各参数估计值的统计学显著性。通过添加中心点、重复
2f个试验等手段可以得到随机误差的估计,但不引入额外试验的统计分析仍然可行,而且广泛应用。效应稀疏原则
[36](
sparsity of effect principle)假定模型中不为零的参数应当占少数,而其余本应为零的参数之所以在一次估计中显现出接近零而不为零的数值,是随机误差的体现,可用于估计随机误差。正态概率图、半正态概率图等定性方法结合定量方法,可以用于推断各模型参数的统计学显著性。
B. 两水平分式析因设计
两水平分式析因设计( 2f-rFFD,Fractional Factorial Design)通过一套运算规则,将全析因设计分成2r组,每组试验数为全析因设计的1/2r。试验实际进行的组数和各组的优先顺序取决于对具体问题的理解和已经得到的试验结果。
以23-1FFD为例,选取因子A,B,C取值乘积为 1的一组试验,这组试验数为23试验的一半,称为生成元(generator)为I= ABC的主分式,几何表述如图2实心点。而生成元I=-ABC的设计称为I= ABC的互补(complementary)分式,几何表述如图2空心点。
实心点:主分式I= ABC;空心点:互补分式I=-ABC
带交互效应项的线性模型共2f个参数,而2f-r个试验不可能求得一组确切的参数。FFD方法将模型中的参数按一定模式相互混淆(confound),常用分辨率(resolution)的概念评价模型一次项系数和一阶交互项系数的混淆程度。如果有把握确信部分参数的统计学显著性,则可以得到对其余参数的粗略估计。如果主分式的结果不足以得到明朗的结果,可以根据已开展试验的混淆模式,有针对地选择互补分式序贯地开展试验,消除不明朗的混淆。
C. Plackett-Burman设计
Plackett-Burman设计(
PBD,
Plackett-Burman Design)
[37]通过构造正交矩阵的方法,选取全析因设计中的部分试验,允许在试验数
n为四的倍数时(如
n=4,8,12,16,20,24…),研究至多
n-1个因子的效应。当
n=2k=2f-r时,
PBD等价于
2f-r的
FFD,所以
PBD的应用场景在
n=12,20,24,28,36的情况。
例如,36个试验的PBD可用于32、33、34和35个因子的筛选试验,但31因子的筛选试验则适用于231-26的FFD。
PBD要求的试验数少,保证一次项系数的正交性。等价于选用最简单的公式(1)模型来近似真实函数,精确度低。
2.1.3 响应曲面刻画设计
从筛选试验中得到对响应变量有显著影响的因子,将其中的类别型变量(如果有)取值固定在有利水平,而连续型变量参与响应曲面刻画试验,在指定的预测精确度要求下,得到这些因子与响应变量的函数关系。
响应曲面刻画试验设计与筛选试验设计的原理相同,并且可以在筛选试验的基础上序贯进行。响应曲面刻画试验的经验模型更为复杂,常采用带常数项、一次项、一阶交互效应项和的二阶响应曲面模型:
(8)
参数β0,βj,βjk和βjj分别是经验模型的常数项、一次项系数、一阶交互效应项系数和二次项系数,共p=(f2 3f 2)/2个。参与研究的因子一般为两到三个,因子取值水平多于两水平,所需试验数相对较多。响应曲面刻画试验的经验模型在研究空间内更接近真实函数,在评价预测误差后,可将模型用于预测研究空间内指定点处的平均响应,但不宜将模型适用性外推到研究空间之外。
A. 多水平全析因设计
多水平全析因设计(LfFD)包含所有因子各水平取值的全部组合,试验数n=Lf。
以三因子三水平全析因设计(33设计)为例,33设计共需要n=33=27个试验,研究空间呈立方体,试验点是各因子低(-1)、中(0)、高( 1)三水平取值的组合,如图3。
多水平全析因设计的主要优点是正交性,缺点是试验规模庞大。例如,33设计的模型共10个参数,用27个试验估计10个参数,不经济。
B. 中心复合设计
中心复合设计(CCD,Central Composite Design)是最常用的响应曲面刻画设计,可由一个两水平的全析因设计(2f个试验)序贯产生。在两水平的全析因设计中加入星点设计(star point,又称为“轴点”,2f个试验)和nc个中心点,试验数n=2f 2f nc。星点设计的试验点在穿过中心点的各因子轴上,取值水平为-α和 α,|α|=1时,设计称为中心复合表面设计(FCCD,Face-centred CCD)。|α|=(2f)1/4时,设计称为可旋转的中心复合设计(RCCD,Rotatable CCD)。
以三因子的CCD为例,CCD包含23全析因设计,试验点是各因子低(-1)、高( 1)两水平取值的组合。星点设计在穿过中心点的各因子轴上,取值水平为-α和 α。|α|=1时为FCCD,几何表述如图4A。|α|=23/4时为RCCD,几何表述如图4B。
RCCD的优点是,对于研究空间内所有与中心点等距的试验点,响应变量的预测方差相等。而缺点是每个因子有五个试验水平,相比FCCD复杂。
A:中心复合表面设计;B:可旋转的中心复合设计
C. 三因子Box-Behnken设计
三因子
Box-Behnken设计
[38](
BBD,
Box-Behnken Design)试验点位于
23全析因设计所构造的立方体棱的中点,加上
nc个中心点,试验数
n=12 nc。图
5展示了三因子的
BBD的几何表述。当立方体顶点处因条件限制不能作为试验点时,
BBD就显示出优势。
D. 均匀外壳设计
均匀外壳设计
[39](
USD,
Uniform Shell Design)又称为
“Doehlert设计
”,常见两因子和三因子的
USD。两因子
USD的试验点在研究空间内呈正六边形,试验数
n=7。而三因子
USD的试验点呈立方八面体,试验数
n=13。
图6展示了两因子USD的几何表述。以正六边形外接圆圆心为试验中心点。中心点与外接圆上所有试验点等距,且圆上所有试验点之间等距。三因子USD具有类似性质。
USD的优点在于,其研究空间易向多个方向拓展,而不用重新开展所有试验。图6展示了两因子USD设计研究空间的拓展优势。向六个方向拓展,只需要做三个额外的试验。
2.1.4 最优设计
前文介绍的经典设计,试验点在研究空间内均有固定的分布样式。当实际情况限制使用任何经典设计时,可以从研究空间中可行的候选试验点中选取部分开展试验。一些统计学标准提供了选取试验点的依据,这些设计被称为最优设计(
OD,
Optimal Design)。其中,
D-最优设计
[40]最常见,遵循
D-最优标准的设计对模型参数的估计有最大的
“整体精度
”。
β的联合置信区间衡量估计值的精确度。在给定置信度下,β的联合置信区间边界,对于两个参数为椭圆(图7),对于三个参数为椭圆体,对于三个以上参数,可想象为高维空间中的超椭圆体。超椭圆体体积衡量参数估计的整体精度。
A:参数估计值间独立(正交);B:参数估计值间相关(非正交)
在其余条件不变时,超椭圆体体积的平方正比于矩阵(XTX)-1的行列式|(XTX)-1|。从研究空间中的候选试验点中选取n个试验点,其中使得|(XTX)-1|最小的组合称为试验数为n时的D-最优设计。D-最优设计常用于因子筛选和响应曲面刻画。
2.1.5 混料设计
在混料设计
[41](
MD,
Mixture Design)中,因子为各成分占比。各成分占比不能在研究空间内自由取值,代数和应为
100%。如果对各成分占比没有单独的约束,则最常用单纯型混料设计
[42](
SMD,
Simplex Mixture Design,又称为
“Scheffe’s设计
”)。
对于f个成分,SMD研究空间可以用(f-1)维空间的正f面体表示。例如,两成分的研究空间为一条线段,三成分为正三角形,四成分为正四面体。图8展示了三成分混料设计几何表述的坐标系统。正三角形顶点代表单一成分,三边代表两种成分的混合,正三角形内任意点代表三种成分的混合。混合物中某成分的占比等于试验点到该成分顶点对边的距离与正三角形高之比。
SMD根据试验点的选取规则可分为两类,单纯型网格设计(simplex lattice design)和单纯型重心设计(simplex centroid design)。
f个成分的{f,m}单纯型网格设计的试验点由每个成分以下占比的所有可能的组合构成,共n=(f m-1)/m!(f-1)!个试验点。
如{3,2}的单纯型网格设计,
六个试验点分别为:
图9A展示了{3,2}单纯型网格设计的几何表述。
f个成分的单纯型重心设计有2f-1个试验点,对应(1,0,...,0)的f个组合, 的个组合,的个组合,以此类推,最后一项为重心 。图9B展示了f=3的单纯型重心设计的几何表述。
A:{3,2}单纯型网格设计;B:f=3单纯型重心设计
混料设计常用的经验模型包括:
一阶模型:
(9)
二阶模型:
(10)
完全三阶模型:
(11)
特殊三阶模型:
(12)
所有模型均包含的约束。成分筛选时可使用一阶模型等简单模型,而成分刻画则应当选取精度更高的高阶模型。
如果各成分占比有单独约束,例如设定每个成分占比的上下限,常根据个案,用极端顶点设计(extreme vertices design)和D-最优设计等方法选取试验点。
2.1.6 试验设计的其它考虑点
尽管一些计算机软件可以辅助生成试验设计方案、分析试验结果,但影响试验结论可靠性的一些关键因素取决于试验设计者而非软件,这些因素包括对配方和工艺中具体问题的理解,选取合适的响应变量、影响因子和研究空间,并选择恰当的模型和设计方案。
2.1.1至
2.1.5小结综述了试验设计的基本原理以及经典的模型和设计,但可选用的模型、设计和方法论不限于此。如调优运算理论
[43][44] (
evolutionary operation)主张可以不专门开展试验,通过正常生产中对影响因子有计划地微小调整,估计出因子的效应。超饱和设计
[45](
super-saturated design)允许试验数少于需要估计的参数个数,得出对参数尽量可靠的估计。需要同时优化多个响应变量时,可以用满意度函数
[46](
desirability function)等方法。
试验中如果存在的可测且可控的干扰因子,区组设计(
blocking)可以检验和排除干扰,经典的区组设计包括成组
t检验(
paired t test),随机化完全区组设计,拉丁方设计,希腊
-拉丁方设计,平衡不完全区组设计,嵌套和裂区设计等(
nested and split-plot design)等。试验中如果存在的可测而不可控的干扰因子,协方差分析(
ANCOVA,
ANalysis of COVAriance)等方法可用于检验和排除干扰
[47]。
2.2 统计工艺控制
统计工艺控制是“质量源于生产”阶段常用的质量管理方法。生产过程中始终存在生产工艺和产品质量的波动,这些波动可分为固有的自然波动,和因物料不良、人员疏失、机械故障等引起的异常波动。控制图(control chart)是统计工艺控制的核心方法,用于监测和识别异常波动,指导人为调查干预或自动反馈控制,使工艺保持在仅有自然波动的受控状态,并促使工艺能力持续改进。控制图理论最早于20世纪20年代由Shewhart提出,一系列原理类似的控制图被统称为Shewhart控制图。本节综述Shewhart控制图的基本原理,以及常用的Shewhart控制图和复杂控制图。
2.2.1 基本原理
Shewhart控制图的原理是基于样本的统计推断,核心思想是方差分析。例如,考察经压片工艺得到的片芯重量 y(g),假设片芯重量符合统计模型:
(13)
其中,a是取样次数,n是每次取样的样本量。xij是第i时刻取样的第j片片芯重量。μ是稳定工艺下的总平均片重。τi是第i时刻工艺相对于μ的偏移量。εi是随机误差项。如果取样的各个时刻没有发生异常波动,则不同时刻的样本之间,片重平均值的波动应当是自然波动以取样误差形式的体现,可以通过方差分析等方法检验。控制图理论是上述统计模型的可视化表现和发展。建立控制图的一般流程为:
(1)确定控制图类型、控制的参数h(例如样本中片重的平均值、方差、标准差、极差等)、取样间隔t、取样次数a和每次取样的样本量n;
(2)开展生产,按取样方案取样、检验并记录结果(或从历史数据中得到);
(3)按照规程计算中心线(CL,Central Line)、控制下限(LCL,Lower Control Limit)和控制上限(UCL,Upper Control Limit);
(
4)检查是否有任何点超出控制限,或显现出有规律的图样
[48],从而揭示可能的异常波动和异常趋势。调查确定异常波动的发生及来源,去除超出控制限的点后,重新计算
CL,
LCL和
UCL;
(5)重复(4),直到所有点落在控制限内,完成控制图的建立;
(6)用建立的控制图监测工艺,如果后续点不存在异常波动或异常趋势,则称工艺处在“统计工艺受控状态”。
控制图理论以取样和统计推断为基础,无法避免两类统计学错误发生。第I类错误是误报错误(又称假阳性、生产者风险),即某次取样得到超出控制限的结果,但实际上工艺并无异常情况发生。得到超出控制限的结果完全是由取样误差引起的极端偶然事件,这一类错误将耗费调查异常情况的资源,将发生率记作α。第II类错误是漏报错误(又称假阴性、消费者风险),即虽然已经发生异常情况,参数h发生了大小为Δh的偏离,但取样仍然有可能得到在控制限内的结果。这一类错误可能给下游生产和最终消费者带来质量风险,将发生率记作β。
对于正态分布的εi,实践中常根据“3σ控制限”的原则建立控制限,即将控制上下限设定在距离中心线3σ处,此时有确定的误报率α≈0.0027。应当根据对产品和工艺的认识、质量属性的关键程度,选择恰当的取样间隔t、取样次数a和样本量n制定控制图,将两类统计学错误控制在与风险相适应的合理范围内。
2.2.2 控制图
A. Shewhart控制图
Shewhart控制图适用于监测较大工艺漂移(≥1.5σ ),根据样品检验结果的变量类型可分为连续型变量的Shewhart控制图(表2)和类别型变量的Shewhart控制图(表3)。
表2 监测连续型变量、较大工艺漂移常用的Shewhart控制图 |
| | | |
| | | |
| | | |
| | | |
表3监测类别型变量、较大工艺漂移常用的Shewhart控制图 |
| | | |
| | | |
| | | |
| 一次取样得到的n个样品中的缺陷个数,一个样品可以存在多个缺陷 | | |
| | | |
B. 其它控制图
累积和控制图
[49](
CuSum,
Cumulative Sum)和指数加权移动平均控制图
[50](
EWMA,
Exponentially-Weighted Moving Average)用于监测微小工艺漂移
[51](<
1.5σ ),正日益受到重视。两种方法不仅计算当前样本的观测值,还将历史样本的观测值累积考虑,故对微小工艺漂移的监测比
Shewhart控制图更加敏感,但对较大漂移和个别异常点而言,
CuSum和
EWMA控制图不如
Shewhart控制图有效。
对于随机误差互不独立的自相关参数,可根据自回归移动平均模型(
ARIMA,
Autoregressive Integrated Moving Average model)等时间序列模型,或移动中心线指数加权移动平均控制图(
MC-EWMA,
Moving Center-line EWMA)等方法建立控制图
[52]。
对于多个相互相关的变量,可以采用多元控制图方法同时控制。多元控制图是
Shewhart控制图的推广形式,基于随机向量
X服从多元正态分布的假设,用类似的统计学方法可以得到相应的多元均值控制图(
Hotelling T2控制图)、广义方差(
generalized variance)控制图
[53][54]、多元单值控制图
[55]、多元
CuSum控制图
[56]和多元
EWMA控制图
[57]等。在变量数目多且相关关系复杂的情况下,可以先通过主成分分析等降维方法,构造相互独立的隐性变量(
latent variable),再根据隐性变量的统计分布建立控制图。多元控制图的可靠性通常需要大量数据的支持,适用于能够在线测得大量数据的情形。
2.2.3 工艺能力
工艺能力(
process capability)衡量生产工艺满足质量标准的能力,常用工艺能力指数(
process capability index)和工艺性能指数(
process performance index)等指标衡量
[58]。
A. 工艺能力指数
工艺能力指数又称短期工艺能力,常用Cp和Cpk两种。Cp衡量质量标准限宽度相对工艺自然波动的大小,计算公式为:
(14)
其中,LSL和USL分别是质量标准下限(LSL,Lower Specification Limit)和质量标准下限(USL,Upper Specification Limit)。σ是工艺自然波动的标准差。
当工艺均值处在质量标准中心线时,Cp值与工艺理论不合格率对应。Cp=1意味着质量标准限在工艺均值上下3σ的位置,即与控制图的3σ控制限重合,对应理论不合格率2700ppm(百万分之,part per million)。Cp=2意味着质量标准限在工艺均值上下6σ的位置,对应理论不合格率0.0018ppm,是所谓的“6σ质量”。
由于σ未知,用a次取样得到的a个样本内标准差或极差的平均值加以修正估计σ。得到工艺能力指数的估计值,
(15)
注意, 是随机变量,服从特定的统计分布,所以不仅应当报告Cp的估计值,还应当通过构造Cp的置信区间等方法报告估计的精确度。
还应当注意,Cp指标能够反应真实工艺能力的前提是,工艺均值处在质量标准中心线,工艺处在统计学受控状态,且质量属性的单个观测值服从正态分布。在工艺均值偏离质量标准中心线时,Cp与理论不合格率没有对应关系,不能反映真实工艺能力,可以看作将工艺均值调整到质量标准中心线后潜在能够达到的工艺能力。当不满足统计受控和正态分布前提时,Cp指标将不能提供对真实工艺能力的估计,和对未来工艺能力的预期。
在质量标准中心线和控制图中心线不重叠时,可以用Cpk衡量工艺能力:
(16)
其中,μ是工艺均值,σ是工艺自然波动的标准差。同样注意,不仅应当报告Cpk的估计值,还应当报告估计的精确度。Cpk指标能够反应真实工艺能力的前提是,工艺处在统计学受控状态,且质量属性的单个观测值服从正态分布。
B. 工艺性能指数
工艺性能指数又称长期工艺能力,常用Pp和Ppk两种,计算公式分别与Cp和Cpk相同,区别在于估计 σ的方法。Pp和Ppk进一步放弃了工艺处在统计受控状态的前提,将所有取样观测值合并,计算一个标准差,加以修正用于估计。
Pp和Ppk也是统计软件常报告的指标,但解释能力有限。在工艺不处在统计受控状态时,Pp和Ppk只能提供回顾性结论,并不能提供对未来工艺能力的预期。
2.2.4 统计工艺控制的其它考虑点
构造Shewhart控制图和评价工艺能力时,如果质量属性的单个观测值不满足正态性,在确证并非由于异常波动导致后,可以采取数据变换等手段,将原始数据变换为正态数据后处理。在无法确证非正态性的成因时采用数据变换手段处理,是不恰当的。
将
Shewhart控制图结合
Western Electric等敏感化规则(例如,连续八点在控制中心线同侧,连续六点单调上升或下降等)使用于监测微小工艺飘移将增加误报率
[59],建议仅在建立控制图阶段排除异常波动和异常趋势时使用这些规则。监测微小工艺飘移,采用
CuSum和
EWMA控制图更合适。
尽管一些计算机软件可以辅助生成控制图,报告工艺能力,但对工艺能力的解释应当谨慎
[60],确保满足指标的前提,并给出工艺能力的区间估计。例如,从一个稳定的工艺中,通过若干次取样得到总共
20个观测值估计得到
=1.33,似乎工艺能力充足。构造其显著水平
α=0.05下的置信区间
0.88≤Cpk≤1.78。可以看出,基于
20个观测的小样本得到
=1.33的结论并不可靠,几乎不能提供关于工艺能力真实水平的任何信息。
评价工艺能力是否充足没有统一的标准
[61],应当根据具体工艺的质量风险和对工艺的理解程度,将工艺能力控制在与之适应的水平。
除Cp,Cpk和Pp,Ppk外,还有Cpm,Cpkm, Ppm,Ppkm等工艺能力指标。但用一个单值指标综合衡量工艺相对于质量标准的中心性和稳健性两方面能力,始终会损失部分信息。这些指标对于两方面能力权重处理不同,故不同指标间通常不能相互比较。
2.3 验收取样理论
验收取样是二十世纪三十到四十年代“质量源于检验”阶段常用的质量管理方法。验收取样不能从根本上保证质量,只能作为预防严重质量偏离发生的最后一道防线。
验收
取样方法是根据取样结果和预先设定的判别标准,决定放行或拒收批次的决策理论,理论依据是概率分布。验收取样方案根据质量属性的类别型或连续型可以分为计数取样(
inspection by attributes)和计量取样(
inspection by variables)。本节分别介绍一阶段计数和计量取样的基本原理。
2.3.1 计数取样
一阶段取样方案(取样一次,判断一次):一批产品批量为N,不合格率为p(p未知),从中随机抽取n个样品检验,每个样品的检验结果为合格与不合格两种。规定取到不合格样品数d不超过某个预先设定的判别标准c则放行批次,反之拒收。
取到不合格样品数d为随机变量,可以取0,1,2, …, min(n,Np)(Np取整数)中任意值,服从超几何分布(hypergeometric distribution)。取到小于等于c个不合格样品的概率即为放行批次的概率。在取样数n<0.1N时,概率可以用二项分布近似:
(17)
用不合格率p对放行批次的概率Pa作图,得到验收取样特征(OC,Operational Characteristic)曲线,示例如图10。曲线描述取样方案在不同不合格率p时的放行决策。
每一个验收取样方案对应一条OC曲线。当批次不合格率p小于可接受质量限(AQL,Acceptable Quality Limit)时,取样方案应当保证尽可能地放行批次。当批次不合格率p大于应拒收质量限(RQL,Rejectable Quality Limit,又称为LTPD,Lot Tolerance Percent Defective;UQL,Unacceptable Quality Level;LQ,Limiting Quality)时,取样方案应当保证尽可能拒收批次。
由于取样误差存在,取样方案存在第I类和第II类统计学错误。在AQL处,因取样碰巧出现极端不利的偶然结果(可能性为α)导致批次被拒收,是统计学I类错误,又被称为“生产者风险”。在RQL处因取样碰巧出现了极端有利的偶然结果(可能性为β)导致批次被放行,是统计学II类错误,又称为“消费者风险”。质量部门应当根据质量属性的风险特征,确定AQL、RQL和相应的和,带入下式得到:
(18)
(19)
联立方程,可以计算出符合要求的n和c值的组合,进而得到取样方案。
2.3.2 计量取样
计量取样的一般理论建立在质量属性的单个观测值服从正态分布的前提上,假设一批产品质量属性服从均值μ和标准差σ的正态分布,且只有质量下限LSL。统计量ZLSL=(μ-LSL)/σ反映均值μ与LSL以标准差σ量度的距离,对应一个不合格率p。通常情况下均值μ和标准差σ未知,从批次中取一个样本量为n的随机样本,计算均值和样本方差s,得到统计量( -LSL)/s 。设定判别标准,在k<( -LSL)/s时放行批次,而在k>( -LSL)/s时拒收,可以计算出在实际不合格率p时放行批次的概率Pa,进而得到OC曲线。计量取样的OC曲线计算过程复杂,可参考相关文献资料。在质量属性不服从正态分布时,不应直接使用该方法。
2.3.3 验收取样理论的其它考虑点
一阶段取样流程简单易操作,只包含一次取样和一次判别。两阶段取样、多阶段取样、连续取样等取样方案可以在保证同等统计效力下减少平均所需的样本量,但代价是流程复杂,可操作性下降,更容易犯人为错误。
取样方法应当保证随机性和代表性,否则样本检验结果不能作为推断整批次参数的依据。简单随机取样和分层随机取样是常用的取样方法,原理可以参照相关文献资料
[62]。
2.4 其它方法
2.4.1 多元统计学方法
多元统计学方法用于研究多变量之间的关系,在试验设计和多元控制图中均有运用。特别适用于以大量数据为基础,例如,工艺在线监测数据,生产全流程数据,图谱数据等场景
[63]。处理高维度数据,常有主成分分析(
PCA,
Principal Component Analysis),多向主成分分析(
MPCA,
Multi-way Principal Component Analysis)和偏最小二乘(
PLS,
Partial Least Square)等降维方法,聚类分析,判别分析,神经网络(
ANN,
Artificial Neural Network),决策树等多元预测模型。原理和实例可以参考相关文献
[64][65][66][67][68][69][70]。
2.4.2 贝叶斯方法
关于统计推断的理论可以纳入频率学派和贝叶斯学派两个体系中。频率学派主张把需要推断的参数视作固定且未知的常数,而样本随机,有关的概率计算都是针对样本的统计分布。而贝叶斯学派主张把未知参数视作随机变量,而样本固定,从先前的研究结果、猜想的理论机理、和其它专业知识中得到对未知参数的先验分布,然后开展试验,向先验分布中补充进新的样本信息,得到未知参数的后验分布,作出推断
[71]。
频率学派和贝叶斯学派各有其理念、内在逻辑、解释力和局限性,没有绝对的优劣之分。贝叶斯方法正日渐受到重视,但也面临一些难题,例如先验分布的确定带有主观性,后验分布通常难以计算等。在应用于实践前,企业与监管部门需要就这些问题的解决方案达成共识。
例如,在
工艺验证方面,
2011年《工艺验证》指南结束了工艺验证只需连续三批成功生产的惯例,所需的批次数需要由生产者确定并提供依据。
ISPE讨论稿
[72]和
PDA技术报告中
[73]提出了供讨论的十余种统计学依据,均为频率学派方法。
Harry Yang提出结合工艺设计阶段数据,确定验证所需批次数的贝叶斯方法,并举实例指出其相比于频率学派方法的优势
[74]。但目前这些方法的适用性还在讨论之中,尚未在企业和监管部门达成共识。
3 常见的统计学应用
本节按照配方和工艺优化、稳定性研究和有效期确定、分析方法验证、中间控制和放行标准制定、工艺和质量监测、取样方案等具体应用方面组织。
3.1 配方和工艺优化
试验设计方法应用于配方和工艺优化中,最早可查的文献记录出现在
1967年,由
Marlowe和
Shangraw发表的水杨酸钠片剂湿法制粒和直压工艺对溶出度的优化
[75]。此后,该领域报告的研究文献数目指数增长,至今有千余篇,涉及口服、局部给药(经皮给药、肺部给药、直肠给药、眼部给药、鼻腔给药等)、非肠道给药等给药途径,片剂(普通片、包衣片、泡腾片、水溶片、分散片等)、胶囊、液体剂型(溶液,混悬剂、乳剂、洗剂、注射剂、微乳剂、眼药剂等)、颗粒剂(丸剂等)、微粒剂(微胶囊、微球剂等)、纳米颗粒剂、囊泡运输、半固体剂型(软膏剂、乳膏剂、凝胶剂、泥敷剂、栓剂等)以及其他剂型(吸入剂、定量吸入剂、喷雾剂、造影剂、硬膏剂等)的配方和工艺优化
[76]。
表4中列举常用的试验设计方法和实例,包括D-最优,FD,FFD,PBD、CCD、BBD、EQD、MD、ANN、PCA、PLS等设计类型。
|
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | 高剪切制粒工艺中影响溶出度、生物利用度/生物等效性 | |
| | | 玻璃转化温度、单抗浓度、聚合程度、冻干产品变形转化温度和颗粒尺寸 | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
| | | | |
D-OD:D-最优设计;FD:析因设计;FFD:分式析因设计;PBD:Plackett-Burman设计;CCD:中心复合设计;BBD:Box-Behnken设计;USD:均匀外壳设计;MD:混料设计;ANN:神经网络;PCA:主成分分析;PLS:偏最小二乘回归。
3.2 稳定性研究和有效期确定
稳定性研究和
有效期确定的原理是化学动力学模型,一级反应模型是研究药品降解最常用的模型,零级反应模型偶有使用,二级反应模型很少使用
[119]。化学动力学模型本身或经数学变换后有确定性的一次线性关系,然而存在诸如批次间产品质量属性差异、批次内产品质量属性和降解速率差异、测量误差等不确定性因素,采集的数据点不会呈现严格的线性关系。建立统计模型,用回归分析等方法可以得到参数的估计值,进而通过区间估计等方法得到有效期的估计。
FDA的
Lin和
Chen[120](
2003)提出,应当通过良好的统计学设计,对有效期有准确和精确的估计。设计应当减少偏误,识别并控制预期和非预期的变异。统计学方法应当对有效期做出合理的统计学推断。
ICH Q1E指南提出建议的评估稳定性数据的统计学方法,方法将批次视作固定效应,并要求在
0.25的统计学显著水平下检验不同批次数据的可混合性(
poolability)。通过检验则采用混合数据估计有效期,未通过则用各批次数据单独估计,取最小的有效期估计值。
Ruberg和
Stegeman(
1991[121]),
Ruberg和
Hsu(
1992[122]),
Shao和
Chow(
1994[123]),
Capen等人(
2012[124]),
Quinlan等人(
2013[125])和
FDA的产品质量研究所(
PQRI,
Product Quality Research Institute)稳定性和有效期工作组的讨论
[126][127][128]认为,
ICH Q1E中提出的固定效应模型、可混合性检验方法以及在未通过可混合性检验时取单独批次估计中最短有效期的做法缺乏统计学依据,且不具备将结论外推到未来批次的能力,而随机效应模型能够解决这些问题。
长期稳定性研究中可以采用括弧法(
bracketing)和矩阵法(
matrixing)减少试验规模,
Nordbrok(
1992[129])提出研究批次、规格和包装三个因子对稳定性影响的十种矩阵法设计,至多可以节省
59.3%的检验次数。
Oliva等人(
2003[130])比较了矩阵法和进行完整试验对人用胰岛素制剂有效期的估计结果,矩阵法试验数为完整试验的
62.5%,而用矩阵法得出有效期
12.7月的估计,相比完整试验得出的
13.3月仅少
0.6月。
表5 稳定性研究和有效期确定中随机效应模型和矩阵法设计应用实例 |
| |
| |
| |
3.3 分析方法验证
表6中列出的多数项目涉及的统计学流程简单且固定,而耐用性和中间精密度研究的设计较为复杂。
耐用性(
robustness)的验证通常可以通过试验设计方法实现
[143][144],表
7列举了几种常见分析方法的耐用性试验设计,以高效液相色谱法(
HPLC,
High-performance liquid chromatography),毛细管电泳法(
CE,
Capillary Electrophoresis)为主。
中间精密度(intermediate precision)的验证通常也通过试验设计方法实现,研究因子一般固定地包括化验员、仪器和日期。中间精密度验证设计中,统计模型通常为随机效应模型,通过方差成分分析可以分别计算化验员、仪器和日期对总变异的贡献。
表7 分析方法验证中耐用性和中间精密度研究常用的试验设计方法应用实例 |
| | | |
| | | |
| 四丁基硫酸氢铵浓度,起始梯度和结束梯度中乙腈百分比,流动相速率,缓冲液pH | | |
| 稀释缓冲液的pH和甲醇的百分比,洗脱速率,洗脱体积,洗脱液成分等 | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| 磷酸缓冲液pH,缓冲液浓度,环糊精浓度,电压上升速率,进样时间,进样压力等 | | |
| 电压,缓冲液浓度,十二烷基硫酸钠浓度,乙腈浓度,正丁醇浓度,尿素浓度和pH | | |
| | | |
| | | |
HPLC:高效液相色谱法;CE:毛细管电泳法;GC:气相色谱法;UPLC:超高效液相色谱法; FD:析因设计;FFD:分式析因设计;PBD:Plackett-Burman设计;CCD:中心复合设计;BBD:Box-Behnken设计。
3.4 中间控制和放行标准制定
将控制图上下限作为警戒限,超出控制限但未超出质量标准限常被定义为“超趋势”(OOT,Out of Trend),即预警工艺可能出现不良趋势,应当适当调查和控制。控制上下限的计算方法和重新计算的周期应当事先在方案中确定。
放行标准如果引用药典标准,从控制风险的角度,应当比药典标准更加严格
[161][162]。
USP 37版凡例中说明,对样本的检验结果是盖然性的,结论不能外推到整个批次。生产者不仅需要保证在放行时的一次检验能够符合药典标准,从药品放行到有效期期间的所有时间内,一经药典流程
检验,都必须符合标准。
Bergum于
1990年
[163]提出一套根据药典标准制定含量均匀度、
溶出度和崩解等内控放行标准的统计学方法,可以提供对未来检验仍能符合药典标准的信心。
FDA于
2011年在《工艺验证》指南中建议参考
ASTM E2709标准
[164]制定内控放行标准,
ASTM E2709标准提供了实现
Bergum方法的一般统计学途径。表
8列举了一些运用
Bergum方法建立内控放行标准的实例。
表8 运用Bergum方法依据药典标准制定内控放行标准的应用实例 |
| |
| |
| |
制剂单位含量均匀度,溶出度,崩解,最小装量,可给药体积 | |
| |
| |
| |
如果产品质量属性随时间变化显著,则需要将稳定性研究数据结合考虑。如图
11所示,分析方法精确性、稳定性损失程度和稳定性研究中参数估计的确切性,将共同决定放行标准限度
[171]。
3.5 工艺和质量监测
控制图方法用于工艺和质量监测。监测单一参数的控制图构造简单,实践广泛,但文献记录少。连续型变量批次内监测(如压片过程中取样监测片芯重量变异)常用
-R或
-s控制图,而批次间(如不同批次间片芯重量变异)常用
I-MR控制图
[172]。
CuSum和
EWMA控制图可以用于微小工艺漂移的监测,实践中使用尚不多,但有发展趋势。对于类别型变量的控制图,如
p,
np,
c,
u控制图,常用于包装、外观缺陷、微生物监测、环境监测等。多元控制图常用在能够在线采集多维度数据的情形,例如在线监测生物发酵过程、结晶过程等,常结合
PCA等多元统计学方法使用
[173][174]。
|
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| 盐酸非索那定流化床制粒和干燥工艺,实时预测水分含量 | |
| | |
| | |
3.6 取样方案
美国国家标准协会(
ANSI,
American National Standards Institute),美国质量学会(
ASQ,
American Society for Quality),国际标准化组织(
ISO,
International Organization for Standardization)以及中国国家标准化管理委员会等机构均发布了计数取样和计量取样的检验程序标准文件
[189][190][191][192][193][194][195],这些标准文件内容几乎相同,根源均为美国军用取样标准
[196]。标准文件指导使用者制定取样方案,保证在指定的
AQL处有很高的放行概率,但并不能保证在批次不合格率高时有合理的拒收概率。还应当注意,这些标准包含一套在正常、加严和放宽三个等级检验严格程度间的转换规则,如果工厂采用整套标准作为取样方案,应当将转换规则结合使用
[197]。
一些经验的取样方案在统计学上也是合理的,如业界常用的
取样方案
[198]。应当分析其
OC曲线,证明其在指定情形下的适用性。
取样方案的选用以及
AQL和
UQL的选取没有统一的标准
[199],但不论直接采用上述机构发布的标准,还是通过
AQL、
UQL和相应的风险水平设计个性化的取样方案,均需要证明方案的统计学合理性,保证方案与质量属性的风险特征相匹配。
企业实践中主要应用计数取样,而计量取样多用于药典标准制定
[200][201]。表
10列举了《美国药典》附录中的两阶段和三阶段取样方案。
4 讨论
多元统计学方法和贝叶斯方法的理论和应用没有详细展开,是因为方法本身较为复杂,且在制药领域应用较新,缺乏同行审评。但这两套理论的应用可能有较大的发展余地。
精益生产、六西格玛等质量管理方法也重视统计学应用,但关注点在于通过持续地提高生产效率和改进产品质量,降低整体成本。而在制药业,持续改进的灵活性取决于企业对产品和工艺的理解,以及与监管部门达成的共识。近年来,美国的药品质量监管政策逐渐强调在药学研究和生产质量管理中使用基于风险的途径和基于数据的科学证据,鼓励企业应用统计学方法支持决策
[215]。这样的转变将促使统计学的应用形成规范。
本文所关注的统计学在药物配方和工艺研发和生产质量管理中的应用,从药品监管部门的角度看,就是在化学、生产和控制(
CMC,
Chemistry, Manufacturing and Control)以及
GMP的应用。这些应用的审评都由美国
FDA新成立的药品质量超级办公室
[216](
OPQ,
Office of Pharmaceutical Quality)负责。因此,为区别于临床试验相关的统计学应用分支
“生物统计学
”,本文所关注的
CMC和
GMP领域的统计学应用可以被简称为
“质量统计学
”。
当一个新药申请获得
FDA批准后,厚达几百或上千页的审评意见就可以披露于众了。但这个披露对临床和
CMC审评有很大不同。前者几乎全部披露,而后者几乎全部不披露,因为配方和工艺部分的很多内容往往属于企业的技术诀窍(
know how),而受到行政保护。因此,企业与
FDA在质量统计使用方法方面的交流与商讨是不公开的,这也许是质量统计学发展缓慢的原因之一。与此形成鲜明对照的是,生物统计学方法的讨论是临床审评中的核心内容之一,无论是在对决定是否批准新药申请至关重要的专家委员会上,还是在批准后的审评文件中,企业方面关于生物统计学的具体使用,及
FDA对此的具体审评意见都是公开披露的。这种透明公开的科学讨论机制可能是生物统计学得到重视并积极发展的重要原因。本文作者希望这篇综述的发表,将有助于促进更多的关于质量统计学的学术研究和讨论
[217][218],促使我国制药企业和监管机构系统地学习和掌握质量统计学,使双方对基本概念、方法和应用形成一定的共识,为双方在科学层面上交流和商讨提供基础,从而最终有益于保障药品质量。
志谢:作者感谢MedImmune公司Harry Yang先生帮助讨论。感谢国家药典委员会张伟先生给予鼓励。感谢北京大学-海正药业QbD联合实验室、北京大学-常州四药无菌GMP 联合实验室的支持。
5 参考文献(略)
来自识林“http://lib.shilinx.com/