为什么风险管理在你的企业不管用之【技术篇】

bluesorrow · 发表于 2014-4-5 16:06:21

欢迎您注册蒲公英

您需要登录才可以下载或查看，没有帐号？立即注册

x

清明节全公司的人都散了，整栋宿舍大楼只剩下三个人和一只英国短毛猫。旅游景点都人山人海的，所以我还是待在家里来码篇帖子吧。自2010年起，我就开始参与风险评估的折腾，期间也研究了很多资料，受到ISPE在2013年的一次培训的启发（培训PPT是我翻译的），较为系统地研究了一下风险管理，研究涉及的范围也很广，包括最基本的中国国家标准、大学教材《风险管理》《风险与保险原理》、国外的专著《failure of risk management》《how to measure anything》《怪诞行为学》、IEC 60812-FMEA、IEC 61025-FTA以及各种各样的论坛、文献，还有跟金融行业的朋友、机械/热核工业的朋友沟通交流等等。
首先，这篇帖子的目的不是要证明“风险管理是一个美丽的谎言”，而是要说明为什么“风险管理是一个美丽的谎言”，目的是提出问题，而不是解决问题。反过来讲，当你解决了这些问题的时候，风险管理是很有用的。如果不能解决这些问题，那么就呵呵了。
其次，这篇帖子主要讲技术层面的问题，管理层面的问题不提。从技术层面看，风险管理中最重要的是风险的分析，如果这一部分非常薄弱，或者缺失，不论你的体系有多么完美，整个风险管理系统就是一个空架子，没有实质性内容。不能正确地分析风险，就不能正确地管理风险。

下面开始吧。

关于风险分析的分类，有很多人很多教材都将风险分析分为定性分析、定量分析、半定量分析三类，我不这么认为，我认为没有所谓的“半定量分析”，只有定性与定量之分。后面详细解释。
关于风险的计算公式，想必但凡懂一点风险管理的人都能脱口而出：风险=可能性*严重性or风险=可能性*严重性*可检测性。
这两个公式错了吗？
第一个没有错，非常正确。但是，我最喜欢说但是，但是风险不能用这两个公式中的任何一个来进行数学计算，并且第二个广义表达式是错的。
为什么？
因为这只是一个广义表达式，就好比我们说：家庭=男人*女人；社会=家庭*家庭*……；回锅肉=五花肉*豆瓣酱*香油，等等等等。这种广义表达式非常常见，也非常正确，但是不能用以数学计算。
ICH Q9中对风险的定义引用的是ISO/IEC Guide 51的定义，如下：危害发生的可能性与其严重性的组合。The combination of the probability of occurrence of harm and the severity of that harm。
而combination的定义是a collection of things that have been combined——被combine在一起的事物的集合。Combine的意思“mix together different elements，把不同的元素混合在一起”。combination指相混元素的紧密结合，但不一定的是融合。
因此根据ICH Q9中的定义，无法推导出“风险=可能性*严重性”这个数学计算公式，因为combination不是告诉你直接把严重性和可能性相乘。如果你把*号当做数学计算符号“乘号”，请自行面壁三天。
我们再来看另外一个定义，来自于《风险与保险原理》第九版(emmett J. vaughan等著)：风险是存在不利结果可能性的状态，该结果与预期或希望的有利结果相背离。risk is a condition in which there is a possibility of an adverse deviation from a desired outcome that is expected or hoped for.风险的定义只是说风险是可能性和后果，但是没有说它们必然要简单地乘起来（注意“简单地”三字）。
但遗憾的是，很多人在做所谓的“半定量分析”或者 “定量分析”时，直接使用这个广义表达式来计算风险，显然，这是不科学的。
现在再来解释为什么我认为“风险=可能性*严重性*可检测性”这个广义表达式也是错的，我用一个简单的因果分析来解释，如图（图片我放在二楼的附件里面）

风险是爆炸，发生的概率（即可能性）是P=P4*P3*（P2+P1），其中P3概率表示的是未检测到的概率，可检测性D=1-P3，可能性P=P4*（1-D）*（P2+P1），严重性是后果1或者后果2（并且还带一个概率，P5+P6=1），因此单从经济损失来看这个爆炸的风险=P4*(1-D)(P2+P1)*P5*S1+ P4*(1-D)(P2+P1)*（1-P5）*S2。从上面的数学公式来看，可检测性是包含在可能性里面的，二者的关系不是简单的相乘关系，在不同风险的逻辑关系中，它们的关系也会发生变化。因此不能简单地把可检测性单列出来，它只是可能性的一部分。
这个简单的实例我在后面还会用到。

基于主观判断的评分法
下面介绍一个美国公司用于分析外包给中国生产的药品的批次风险的新方法。这种方法是一种基于主观“权重评分”的方法。若干种“风险指标”分别标为1-5分。例如，如果生产商已经生产了一种相似但不均一的药品，可以在称为“经证明的技术熟练度”的指标给一个低评分2，如果它被中国监管机构检查过，并得到了积极的评价，但还没有被FDA检查过，则可以在“正式检查”指标给4分。如果药品的组分要求特定的特别安全控制，难以外包，则可能需要评为更高的风险。所有这些评分都基于一个评估小组的判断。
然后这些评分每个要与一个权重相乘，从0.1到1.0不等，然后所有加权分相加。加权分为17.5的是一种外包策略，21.2是另一种，等等。选择分数的小组也选择权重，还是基于主观判断。小组把结果分值进一步分为不同层级的风险，用于决定使用某个中国供应商。例如，风险得分超过20可能意味着“极度高风险：寻找替代者”；10-19可能意味着“高风险：只有增强质量保证才可采用”等等。
这是非常常见的方法，相信很多人都见过、用过。
但是，我最喜欢说但是，但是谁能证明这种方法是有效的呢？我问过很多人，how do you know it work? 没人能回答这个问题，顶多就是“我们通过CAPA来追踪”。行业内大多数人都觉得这种权重评分方法是这个行业里接近于“best practice”的东西。
以下是一些常见的声称其风险管理过程是成功的的证据：
 参与这个过程的其他利益相关者也声称这个过程是成功的。他们甚至可能做了正式的内部调查。但是，自我评价是不可靠的。2003年7月，哈佛商业评论（HBR）发表了一份研究报告。对不同管理工具的实施深度与过去5年时间的股东回报率进行独立的外部审核，发现大多数管理工具和技术（包括TQM）与优秀商业表现没有直接的因果关系。没有独立、客观的测量，任何成功的感觉都可能只是心理作用。就是说，仅仅是比什么事情都没做感觉要好一点点。
 方法的支持者会指出这个方法是结构化的。但是有大量的结构化的方法被证明是无效的，例如占星术。
 通常，“文化改变”也被引用为风险管理的一个主要好处。但这本身并不是风险管理的目标。如果这种文化并不能真正滴引导风险的降低或可测量的更好的决策，那又有什么用呢？
 支持者会争辩说他们的方法有助于建立共识。这是个很奇怪的普遍回答，好像共识本身就是目标，而不是对风险的管理和更好的分析。建立完全错误的共识可能只会保证公司更快地进入错误道路。
 支持者会宣称其基础理论是经过数学证明的。但由于这些方法的使用者通常无法自己测试这一点，所以跟卖蛇油膏的没什么区别。即使是基于某些公认的方法，也有可能误用了这些方法。这些著名方法本身有一些重要的缺点，所有的风险管理者都应当知道这些缺点。（后面我会重点讨论FMEA/FMECA存在的问题）
 方法的供应商会声明其他机构在使用这些方法的这个事实，然后凭借以上一种或几种论点来争辩那就是它有效的证据。这个只能叫“证言证据”。如果之前的使用者的评估标准并不比上述情况更好，那这些证言也就没什么用。
 最后，最绝望的辩护就是声称，“至少我们在行动”。想象一下，一个病人抱怨耳朵痛，医生无法解决问题，然后开始锯患者的脚，医生辩护说，至少我在行动。

整个行业都用一种不科学的风险分析方法或根本没有，那么最坏的结果就不可避免。
百特（baxter），2008年接到了其中国生产的抗凝血药物海普瑞的严重不良反应报告。为了自己的信誉，截止2008年一月中旬，百特主动召回了该药物多剂量剂型的多个批次。那时候，FDA正在考虑强制召回，但是没有执行，因为他们认为其他厂商的产量可能无法满足这种重要药品的需求。FDA推断患者需要海普瑞进行治疗的额外风险会更高。到二月份，FDA确定其他厂商供应的海普瑞是足够的，百特需要召回各种海普瑞产品。在二月份召回事件的开始阶段，FDA将4起死亡与中国生产的海普瑞联系起来，到三月份，死亡数字增加到19起。到2008年五月，FDA已经明确地对这个产品关联了总共81起死亡和785例严重过敏反应。当然，各种个人和集体诉讼可能会争论一个更高的数字。
向中国外包药品生产的风险一直很高，某些公司至少尝试开发一种风险管理方法表明这个行业至少意识到了风险——不管这些方法有没有效果。FDA要检查任何在美国销售的药品的生产商的运行，包括国外工厂，但是，到2008年3月，FDA只检查了566家中国药品生产企业的16家。而美国大约40%的药品来自国外。这个比例很容易被证明是最好的可以获得的风险分析。
由于整个行业在风险管理的这个方面都不精确，当然也没有理由挑出百特说它特别差劲。这个故事仅仅是可能发生的事件的一个例子。
药品污染的单个事件不能必然地构成风险管理的失败，幸运的连续零灾难也不能表明风险管理有用。制药外包的例子能很好地说明可能发生的情形。在大多数有关风险管理的情况下，故事应当仅用于解释观点，而不是证明观点。有可能一个公司没有发生灾难仅仅是因为很幸运。他们所做的事情可能和发生了灾难的那些公司没有实质性区别。
对于制药行业或其他行业使用的任何风险管理方法，我们必须问，“我们怎么知道它会起作用？”如果我们不能回答这个问题，那么我们最重要的风险管理策略应当是找到一种方式来回答这个问题，并采用一种有用的风险评估和风险减轻的方法。

如果我们说风险管理是失败的，至少是由于以下三个原因中的一种：
1.不能完整地或部分地测量并验证方法；
2.使用了已经明确不会有用的元素；
3.没有使用已经明确会有用的元素。
除了特定行业的特定定量方法，风险管理的效果几乎都没有被测量。风险管理最大的失败是几乎没有实验证据证明这些被使用的方法改善了风险的评估和减轻。如果唯一的“证据”是最初支持这个方法的管理者的成功的主观感受，那么我们没有理由相信这个风险管理方法不会产生负面结果。对于像风险管理这样的关键问题，我们应当要求的是其有效的肯定证据——而不仅仅是缺乏它无效的证据。不知道其本身的风险是风险管理的失败。
对风险管理某些方面的已经存在的实验证据表明存在某些严重的错误和偏见。由于许多风险管理方法依赖于人的判断，我们应当注意那些显示人类如何误解并系统性低估风险的研究。如果这些问题没有被识别并纠正，那么任何一点点基于人类估计的风险管理方法都可能失败。
同时，存在着已经证明在实验室环境和真实世界中都有用的方法，但是在大多数风险管理过程中都没有使用。

为什么不应该相信脑袋中的数字？
如果我们打算依赖专家，我们难道不需要了解一下专家在评估可能性或风险的影响时的能力吗？例如，技术人员、科学家、工程师在使用一台仪器测量重量的时候，如果他们不知道仪器已经经过校准，那么就不会使用这台仪器。如果他们知道这台仪器总是会超重5%，那么他们就会相应地调整读数。对于管理者或分析师，我们也需要对他们过去估计风险的能力进行类似的测试。我们需要知道他们是否一致性地过高或过低估计风险。我们需要知道他们是否不那么一致，以致于在不同时间出现的一样的情形做出完全不同的估计。
幸运的是这些都已经被广泛研究过了。我们知道经验的局限性有几个原因，在风险管理中，我们应当时刻牢记的经验的几个特点：
 经验是我们生命中各种事件的一种非随机、非科学的样本。
 经验是基于记忆的，同时对于要记住什么我们又是非常选择性的。
 我们从我们的经验（或者说至少在我们选择记住的部分）中总结的东西可能充满了错误
 除非我们在过去的决策上获得了可靠的反馈，就没有理由相信我们的经验会告诉我们太多东西
 不管我们积累了多少经验，我们在它们的应用上似乎不是非常一致。

坏消息是，所有的人，包括专家和管理者，在评估事件的可能性上表现都很差——这种能力应该对正确的风险评估至关重要。好消息是，有研究开发了相对简单的技术来修正主观评估的系统性错误。
1970年代，在判断与决策心理学（JDM）领域，丹尼尔•卡尼曼和阿莫斯•特韦尔斯基开展了非常重要的研究，这些研究中的一些对经济学有重要影响，因此在2002年，卡尼曼成为第一个获得诺贝尔经济学奖的心理学家。特韦尔斯基因为死得早，所有没有得到。
他们两人对人类的思维如何处理不确定性、风险和决策非常感兴趣。他们的研究遍及这个领域的每个主要问题，JDM领域中基本上很难找到没有引用他们的研究论文的情况。在某种程度上，丹尼尔•卡尼曼和阿莫斯•特韦尔斯基的工作可以为描述成“人类判断中的怪癖和缺陷目录”（所以这里推荐两本扩展读物，怪诞行为学1和2）。人类的思维，显然不是计算机。我们不能像读取硬盘一样100%准确地回忆起事件。除了一些专业人士，我们回忆起这些事件的时候，我们不会在脑袋里进行统计学计算来确定这些事件的真实意义。
这个领域已经做了很多关于风险评估、不确定等的研究。但是我相信如果不知道这些思想家已经做了的这些工作，没有哪一个想成为风险分析师和风险管理经理的人可以说他对风险管理知道很多。（看我的风险管理调查之七，制药行业内绝大多数人对如此重要的领域都没有研究）
当一个供应商估计房子的建筑成本时，他通常会列出详细的材料清单，以及估计相应的人工成本。可以理解，这样提供的估计可信度很高。
但是，当提到风险的时候，管理者和专家会把一个风险评为“非常高”另一个“非常低”，但是没有任何计算。对大多数人，对概率的计算比房屋建筑成本的计算更虚。
首先，我们回忆事件的能力有限，卡尼曼称为“峰尖效应”：我们倾向于记住经验中的极端事件而不是普通事件。当我们相信天气预报员不能估计准明天是否下雨的时候，是因为我们真的记起了他们说有5%的概率会下雨的每一次情形并将其与真是的下雨次数对比吗了？不，我们只记起有一次我们计划在公园举行家庭聚会，因为天气预报员说有5%的可能性会下雨，但是下雨了。有研究表明，当天气预报员预测有5%的可能性会下雨的时候，确实只有5%的时间会下雨。
即使我们不依赖我们对事件的错误记忆，我们的思维方法也可能让我们在概率评估中犯逻辑错误。举几个卡尼曼和特韦尔斯基研究过的简单例子：（更多的内容可以见果壳网科普文章《人人都该知道的20个科学事实》和《怪诞行为学》）
 对概率的错误概念。如果你抛六次硬币，哪一种可能性会更大？（HHHTTT或HTHTTH），事实上他们的可能性一样的，但是研究发现大多数人会假定第一种序列比第二种看起更加不随机，它可能更加不可能。卡尼曼把这种现象称为选择性偏见。我们会根据我们假设的具有代表性的情形来做出判断。同样的研究表明当人们被要求模拟随机硬币抛掷的情形，他们倾向于产生很多的有相同结果的短序列（例如两个或三个T），很少的长序列。我们简单地倾向于混淆随机和模式。
 合取谬误。人们在乘飞机之前，如果提供一个机会购买航空险，相比覆盖航空死亡事件的险种，他们明显地更愿意买覆盖恐怖袭击的保险，但前者也包括恐怖袭击。
 对“小数定律”的信仰。假设一个美国制药公司从一个众所周知监管力度很差的国家的两个供应商获得了数批原料。美国公司知道如果这些原料采用了某种特定的工艺方法，只有30%比例的批次可以接受。如果采用了更先进的工艺方法，则有70%比例的批次可以接受。对于一个供应商，我们已经有12个批，其中4批不合格。对另一个新的供应商，我们只有4批，但是都合格。那么你更相信哪个供应商使用的是更先进的工艺方法。如果我们做数学计算，这两家采用新工艺的概率都是一样的。但是大多数人显然认为他们对后者有更大的信心。
 忽视小样本中的偏差。小样本比大样本的随机偏差更大这个事实被过低的考虑。卡尼曼发现，当被要求主观估计一个随机抽取组的人的平均身高大于1.8m的概率时，不管是1000人还是10人，人们基本上都会给出相同的概率。但是计算发现，与10个随机抽取的人的平均身高相比，1000人组的平均身高会落在非常窄的范围里，也就是说，数量少的组平均身高高于1.8米的概率更高。
 对先验概率不敏感。如果医生告诉你，一个非常可靠的测试发现你在一种罕见疾病上是阳性结果，你会有多担心？这取决于测试的可靠度如何以及这种疾病有多罕见。但是卡尼曼发现当人们被指定了特定的情形时，他们倾向于首先忽略这种疾病的罕见度并且更关注新的信息。假设，如果一个人已知得了这种病，该测试99%的情况下会返回阳性结果。当我们对一个已经没有得这种病的人做这个测试时，假设会有99%的可能性会返回阴性结果。我们还知道1万个人中只有一个人有这种病。在这种情况下，会有大量的阳性结果是“假阳性”。如果随机测试一万个人，那么会有100个假阳性，但是只有一个人有这种病。
 灾难性的过度自信。JDM心理学家发现的最普遍、最详尽研究过并彻底确认的现象就是几乎所有人都会对自己的预计过度自信。例如斯坦福大学MBA学员中80%的人认为自己的成绩能进入前50%；我在公司内部的一项调查显示我公司81.25%人认为自己的个人形象排在公司前50%，56.25%的人认为能排到前20%。呵呵。
 不一致性。不论我们积累了多少经验，不论我们多聪明，我们在估计和意见上似乎非常不一致。这种不一致表现在对同一件事情的评估，我们在不同的时间作出的判断可能截然相反（如果你曾经反反复复地对同一事件进行风险评估，你可能会有体会）。但是有时候不一致性可能不完全是随机的，可能是由于某些不应该对我们判断产生影响的因素。卡尼曼称之为framing框架效应，即人们被提问的方式会影响他们如何回答。1982年，卡尼曼做了一项研究，有600人感染了新的传染性疾病，要求参与者在两种治疗方案中做出选择。参与者被分成两组，两个组被问的问题实际上是一样的，但是表述方式不同。（我在公司内部也进行了测试，结果差不多）。第一组被要求在以下两种方案中选择：1.如果采用A方案，会有200人得救；2.如果采用B方案，有三分之一的概率600人都能得救，三分之二的概率没有人会得救。第二组被要求在以下两种方案中选择：1.如果选择A方案，会有400人死去；2.如果选择B方案，有三分之一的概率没有人会死，三分之二的概率600人都会死。在第一组中，72%的参与者选择A方案，第二组中，78%的参与者选择B方案。这被称为artifact，人造结果。
 锚定效应。这个不细说了，见《怪诞行为学》
每次被问到“这些事件中哪一个最可能发生”的时候，这些错误计算和我们记忆相关数据的能力局限性会影响我们对风险的评估。如果你正在对风险做主观判断，你应当假设你的回答正在受到其中一个或多个效应的影响。卡尼曼甚至显示了当被要求作出主观估计的时候，统计学家也会犯同样的错误。
在任何正式的风险评估方法中，有多少结果仅仅是提问方式的人造结果？专家和管理人员的回答中有多少是过分自信、逻辑错误、随机不一致性的结果？

最流行的风险评估方法以及他们为什么没用
之前已经介绍过，并且大家相信对这些计分方法都非常熟悉。
正如之前提到的，为什么这种方法如此流行？主要是因为计分法非常容易实施，不要求任何特别的培训或者任何前期研究，任何人都可以对任何事物开发他自己的计分方法。
有大量的计分方法，但都可以被归纳为两种：一种是加权计分，一种是风险矩阵相乘。加权计分的表达式可以归纳为S=A*W1+B*W2+C*W3+D*W4+F*W5，风险矩阵相乘的表达式为：R=P*S*D
计分方法实质上是孤立于风险分析和决策分析中的科学方法而开发的。没有任何实验证据表明这些方法能改善决策的质量。
计分方法的主要问题：
 与该领域的相关研究脱节，没有一种方法考虑了有关风险认知和不确定性的问题。
 不同的人对可能性的定性描述有非常不同的理解和使用，即使采用了仔细的步骤来统一其含义。
 由于其结构的无意识后果，计分法本身增加了自己的错误。

“中等”究竟是什么？
很多风险专家或者管理者会评论定量概率太过精确，他们缺少做到这种精确程度的知识。默认的替代方案就是使用一些词汇来表达可能性、影响性和其他因素。喜欢计分方法背后的一些错误概念：
 概率使管理者迷惑。但更可能的是许多风险专家对如何解释概率是迷惑的。在不确定状态下做出的管理决策以及使用概率语言是作为管理者的基本能力，和理解“贴息现金流”或者“内部收益率”一样基本。
 词汇可以减轻知识的缺乏。许多风险咨询师和管理者会说他们没有足够的知识来使用精确的概率。但首先，在概率中使用术语“精确的”似乎就缺乏对概率的基本理解。概率用于表达不确定性。特别是在有大量不确定性的时候。并且，使用词汇并不能减轻对某个问题缺乏知识这个事实。如果采用这种方法，你和以前一样缺乏知识。并且增加了的模糊性使你更难以意识到它。
使用定量概率的优势是对我们的不确定的明确的描述，而不是一种精确、准确的量。但是由于这些误解，很多人更喜欢用非常可能、可能、不太可能、非常不可能等词语。IPCC政府间气候变化专门委员会和NIST的报告中未每一种词语分配了特定概率。例如，IPCC定义非常可能是高于90%，不可能是少于33%。但是，这些方法的使用者会非常不同地解释这些含义，词汇描述本身就增加了其不精确性。David budescu做了一项研究，让受试者阅读IPCC的报告，并对每一个可能性词汇分配一个概率。例如“酷热、严重的冰雹事件非常可能持续变得更加频繁”，一个受试者可能将其读为“酷热、严重的冰雹事件有95%的概率会持续变得更加频繁”。结果非常吃惊，即使给了受试者特定的指南告诉他们这些词汇的含义，结果波动也非常大。例如，“可能”这个词语的概率的描述从45%到84%不等。甚至受试者被告知指南中规定了“可能”的意义是大于66%的时候，这个结果还是发生了。当每个人都认同某个事件非常不可能的时候，实际上他们根本没有达成一致意见。（有兴趣的同行也可以在自己的公司做一个类似的测试）
甚至还有很多方法没有对这些词汇规定具体的含义。还有一些是用不确定的词汇来描述不确定词汇，例如
Probable很可能：the future event is likely to occur事件可能会发生
Reasonably probale相对可能：the chance of the future event occurring is greater than remote but less than probable事件发生的可能性大于不太可能，但小于很可能
Remote不太可能：the probability the future event will occur is small事件发生的概率很小
很显然，使用词汇并不能缓解我们对某个问题缺乏知识这个事实。如果采用这种方法，你和以前一样缺乏知识，你的知识并没有增加，并且增加了的模糊性使你更难以意识到它。
现在就可以解释为什么我认为不存在所谓的“半定量风险分析方法”，至少是当前制药行业内使用的方法不存在半定量的，所谓的半定量方法只不过是把“很可能、可能、相对可能、不太可能、几乎不可能”等等词汇换成了阿拉伯数字“1、2、3、4、5”，使用阿拉伯数字也并不能缓解我们对某个问题缺乏知识这个事实。如果采用这种方法，你还是和以前一样缺乏知识，你的知识并没有增加。
进一步，当用于风险的影响性评估时，这种模糊性会有更大的影响。这些看起来简单的计分比例有其无意识的数学后果，如下：
 范围压缩。例如，一个项目的投资回报率在1%-299%之间用1分表示，2分表示300%-499%。如果一个299%投资回报率的项目和1%投资回报率的项目评分是一样的，但是它和300%投资回报率的一般一样好。当用于风险矩阵中的时候，这种因素会随之放大。又例如，NIST的标准把1%-18%可能性作为一个分值，100万美元的影响是“高”，没有更高的分类，那么250万美元的影响应该也是“高”，那么1%的概率损失100万美元的评级就和18%的概率损失250万美元的风险等级是一样的。而实际上后者的风险比前者高45倍。这种分值的变化对风险评级的影响非常大。
 假定了规则的区间。当应用了这种比例的时候，就相当于给定了一种假设，这种分值变化区间是等比的。很显然这是不科学的。
 毫无依据的风险等级划分。例如一个RPN值1-1000的风险等级表，为什么RPN值高于700就是高风险？为什么不是200？为什么RPN值低于100就是低风险？为什么不是10？
 假定了独立性。在不同的风险矩阵中，不同风险不同因素之间的相互影响都被忽略了。风险评估人员必须牢记这一点：相关性会改变风险。计算独立事件的结果是有可能的，比如极潮、强降水和关键员工的缺席。但如果这些事件相互关联（比如风暴会导致高水位，而强降水会导致关键员工的缺席），它们共同发生的几率就比预期更大。信用评级机构对一大波次级房贷违约风险的低估就是2008年美国信贷市场崩溃的一个重要原因。风险评估必须考虑所关注的事件之间的相互关联程度。

以上就是人的主观判断中存在的各种各样的问题，以及简单的计分方法背后的逻辑错误，或许这些计分方法可以设计得看起来很复杂，但实际上都是一样的。这也是为什么这些方法的作用应当被怀疑的原因。

你真的会用FMEA吗？
接下来谈谈FMEA这种方法，这种方法相对比较简单，在行业内的应用范围非常广泛，以致于大多数人都敢说自己懂FMEA，但实际上好多人连FMEA和FMECA的区别都没搞清楚。
FMEA是分析组件的失效模式以及相应的影响，而FMECA则是在FMEA+CA，在FMEA的基础上增加了一个风险矩阵或者RPN值的计算，对风险进行评级。有多少人在做着FMECA的事，同时又将自己的方法称为FMEA？
但凡自认会用FMEA的人都请回答这三个问题：
FMEA最重要的一个假设是什么？
FMEA的缺陷是什么？
FMEA对于风险评估是充分且必要的方法吗？
《孙子兵法》上说“不知用兵之害者，不能尽知用兵之利也”，同样的，不知FMEA之弊者，不能尽知FMEA之利也。
FMEA用于机械设备的分析非常有效，是因为机械设备是实实在在的物理实体，各种元件、系统之间的层级关系容易理清，其失效模式以及影响都容易理解和判断，并且机械行业中基础元器件是有加速试验（可靠性试验）的数据支持的，简单的说，通过数据你可以知道某个元件随着使用时间的增加，其失效模式和概率是怎样变化的。（不过制药设备供应商目前还做不到这一点，航空航天核工业可以做到）
当FMEA用于相对虚化的工艺过程时，各种基础事件、系统之间的层级关系也就不那么容易理解，必须要花精力去理清背后的逻辑关系，但遗憾的是很少有人会去做这个工作。同时，基础事件的失效模式、失效概率都是不清晰的，都没有被理解，后果就是你懂的。（可以参考前面那个“爆炸”的简单例子。在FMEA中，你可能会将“爆炸”“产生火花”“通风不好”“探头未检测到”等等分别当做风险本身、或者当做失效模式或者失效的影响，仅仅使用FMEA的时候，你是很难理清各种基础事件之间的层级关系和逻辑关系的。不信的话你可以尝试将你们的工艺用故障树和事件树（合起来就是因果分析）分析一下，你会发现和FMEA有显著的区别。）
FMEA最重要的一个假设就是“假设了各种失效模式之间的独立性”，FMEA的局限性在IEC 60812-2006中有详细的阐述，我翻译了一下，放在后面。
“当运用于导致整个系统失效或系统主要功能失效的组件的分析时，FMEA是非常有效的。对于拥有多重功能、涉及不同类型系统组件的复杂系统，FMEA可能很困难、冗长。这是因为需要考虑的详细系统信息的量。这种困难会因为存在许多可能的操作模式，以及维护和维修政策的考量而增加。”
“除非其被明智而审慎地应用，FMEA会变成一个艰苦而无效率的过程。其结果的后续使用应当被定义，并且FMEA不应当被不加选择地包括在需求说明中。”
“如果一个具有层级结构的系统设计中应用了冗余设计，当FMEA企图在其中跨越多个级别时，会发生混乱、误解和错误。”
“每一种或每一组失效模式或失效模式的原因之间的任何关系在FMEA中都不能有效地呈现，因为这个分析的主要假设是不同失效模式的独立性。这个缺陷从软件/硬件相互作用的角度看会变得更加显著，在这种情况下独立性假设不适用。当加入人类与硬件的相互作用以及对他们的相互依赖性建模时，也会遇到同样类型的困难。独立性的假设可能会掩盖一种可能有灾难性后果的失效模式，其结果会导致另一种失效模式，同时他们两个分别都有很低的发生概率。相互关系的情形使用FTA工具会好很多。”
“因此，FMEA限定在层级结构只有两级的时候使用会更好。例如，识别每个元件的失效模式并确定他们对其组合体的影响是一个相对简单的任务。然后这些影响会变成上一级别（如模块等）的失效模式。然而，成功的多级FMEA也经常能完成。”
“FMEA的另一个缺陷也被发现了，它不能提供对整个系统可靠性的测量，并且由于相同的原因，它不能对设计改进或权衡提供任何测量。”

“FMEA与其他方法的关系”
“FMEA(或FMECA)可以单独使用。作为分析的一种系统性归纳方法，FMEA大多数时候用作其他方法的补充，尤其是演绎方法如FTA。在设计阶段，通常难以确定归纳法还是演绎法占主导位置，因为二者在思考和分析过程中是组合的。当工厂设施和系统中的风险级别被识别出来的时候，演绎法更合适，但FMEA仍然是一种有用的设计工具。然而，它应当通过其他方法补充，特别是在需要识别问题、在多种失效和后果需要研究的情况下寻找解决方案的时候，首先使用的方法将取决于项目规划。”
“在设计阶段早期，只有功能、一般性系统结构和子系统被确定下来，系统的成功性能可以通过可靠性流程图或失效树的失效路径来描述。然而，要协助画出这些系统流程图，FMEA归纳过程应当在子系统被设计之前进行应用。在这些情况下，FMEA方法不会是一个综合的规程，而是一个还不能以表格形式表达的思考过程。通常，分析一个涉及若干功能、大量元件以及元件之间的相互关系的复杂系统，FMEA被证明是必须的，但是是不充分的。”
“FTA是一种分析失效模式及其原因的互补的演绎法。它追溯一个假定的高层级故障的低层级原因。通过逻辑分析，可以并且有时候被用于缺陷序列的纯粹定性分析，它通常是估计假定的高层级故障的频率的先驱。FTA可以对各种失效模式的相互依赖性建模，其相互作用可能导致很大比例的高危害事件。在一种首先发生的失效模式会包括另一种高概率和高危害事件发生时，这尤其重要。这种情形用FMEA不能成功的建模，因为每种失效模式都被独立地考虑。FMEA的一个缺陷是不能看到系统中失效模式的相互作用和动态发生。”
“FTA专注于同时发生（或顺序发生）的逻辑以及导致替代不良后果的替代事件。它可以产生被分析的系统的正确模型以及其可靠性的估计（失效概率），也可以评价设计改进的影响和失效模式在总体系统可靠性上的迁移，这是有益的。FMEA格式可以更加描述性。两种方法都用于复杂系统的安全性和可靠性的完整分析。然而，如果系统主要基于串联逻辑、少量的冗余和少量的功能，FTA是一种不必要的复杂方法。这种情况下，FMEA和可靠性流程图足够了。另外的情况下FTA更合适，它还是需要失效模式和影响的描述来增强。”

作为一个风险评估人员，必须理解什么是相对风险，什么是绝对风险。IEC 60218-2006 5.3.3还具体阐述了“FMECA与风险分析的关系”：
“FMECA通常产生的是一个对总体风险的贡献的相对等级，而对高风险系统的风险分析一般性目的在于风险的可接受性。对于低风险和低复杂度系统，FMECA可能是一种非常经济和合适的方法。”
“不管在FMECA过程中的什么时候，如果发现了有可能发生的高风险影响（high-risk effects），建议应当优先使用概率风险分析方法（PRA）。”
“因此，当判断一个高风险或高复杂度系统的某种特定影响的风险是否微小到可以接受的程度时，一个FMECA不应当被用作判断的唯一基础，即使其频率和严重度的估计是基于可信赖的数据。这是概率风险分析方法（PRA）的任务，在这种方法中会有更多的影响参数（及其相互作用）需要考虑，例如暴露时间、避免的概率、故障的潜伏期、故障检测机制等。”（特别提醒，请将上面三段话一字一句重复阅读三遍！）
也就是说，要判断一个高风险是否可以接受，单单依靠FMECA是不行的，不论其依赖的数据有多么可信。因为FMECA产生的结果是相对风险，而不是绝对风险。最简单的例子就是注射液的灭菌，我们必须要计算SAL值，当SAL值达到百万分之一的时候，产品灭菌的风险才是可以接受的，而不能简单地做个FMECA就完事。而且FMECA中的风险矩阵或RPN值还面临着前面已经阐述过的判断与决策心理学方面的问题。

该怎么做？
风险管理的潜在客观评价必须测量风险本身——一个事件的概率及其严重性。以下方法才是有效的：
1.基于大量样本的统计学推断
2.原因与结果的直接因果证据（相关关系不等于因果关系）
简单地说就是要获得知识、增加知识。
举个例子，一种重组蛋白的开发者对产品工艺中的酶切步骤非常关心，因为开发者从理论上推测虽然酶的专一性非常高，但是不能排除当产品中的设计酶切位点切除完成后酶不会作用于其他位点，即怀疑酶的专一性，所以开发者合理地认为这是一个高风险步骤，应当控制酶切时间，保证底物有10%左右的剩余，防止酶作用于其他位点，以免产生更多杂质同时降低产量。试想，如果让一个不具备相关知识的人去做这种风险评估（例如QA，因为很多公司都喜欢让QA干这些事），他能意识到这种风险么？很显然不能。
后来中试生产中对酶切时间进行了研究，当酶切时间超过设计时间2倍的情况下，产品收率没有变化，表明开发者担心的风险是不存在的。如果没有试验数据，光靠拍脑袋打个分，能评估这个风险么？显然还是不能。
建议好好研究一下核工业中成功且广泛应用的概率风险分析（PRA）。

风险管理的三个关键改进方面：
1.停止使用计分法，立即开始向概率建模方法转变
2.采用构建不确定系统模型的语言和哲学观念
3.成为科学家

同样需要提醒的是，任何风险评估方法，包括最精确的定量分析方法也有人为主观输入，因此需要对人的主观判断进行校准。也许大家会奇怪，怎么对人的主观判断进行校准？实际上这个世界上基本上你能想到的问题都已经被人研究过了，如果你找到一个从未被人研究过的问题，那么请坚持研究它，总有一天你会得诺贝尔奖的。校准的方法在《failure of risk management》中有简单介绍，详细的内容建议去研究一下判断与决策心理学的相关文献。

最后提醒一句：风险管理不是让你随意拍脑袋去做决策。
说好的风险管理呢？

注：版权所有，本贴严禁用于未经授权的商业用途。如有转载，请注明出处——来自于蒲公英论坛ISPE官方专版，wilson.zhang。

补充内容 (2014-4-6 21:34):
我在29楼还有一些解释。
现在制药工厂做的风险评估只能算定性分析，某种意义上讲，大家对定性风险分析的期望值太高了，所以失望也越大。如果真的想达到你们所期望的效果，就转向定量风险分析方法吧

补充内容 (2014-6-8 20:56):
补充一下后来写的续篇〈让风险管理再飞一会儿之【本质篇】〉的链接，https://www.ouryao.com/thread-238447-1-1.html

bluesorrow · 发表于 2014-4-5 16:06:56

本帖最后由 bluesorrow 于 2014-4-5 16:10 编辑

自己占沙发，谁能告诉我怎么在一楼上传附件？搞不定就只有在这里发了。

醒醒 · 发表于 2014-4-5 16:17:10

很有意思的帖子啊，呵呵，清明节不出去了，人太多了

幻影 · 发表于 2014-4-5 16:19:40

放假了，继续研究GMP。

zhulikou43l · 发表于 2014-4-5 16:27:27

加班中，偷空冒个泡

bluesorrow · 发表于 2014-4-5 16:57:32

醒醒发表于 2014-4-5 16:17
很有意思的帖子啊，呵呵，清明节不出去了，人太多了

是的，非常有意思。很多人都抱怨管理层面的问题，但没有几个人抱怨技术层面的问题。

幻影 · 发表于 2014-4-5 17:02:38

bluesorrow 发表于 2014-4-5 16:57
是的，非常有意思。很多人都抱怨管理层面的问题，但没有几个人抱怨技术层面的问题。

这效益不效益的问题总是管理层面自以为是的事情啊。

Whats · 发表于 2014-4-5 17:30:38

内容太多，需要慢慢研究。

bluesorrow · 发表于 2014-4-5 17:38:49

幻影发表于 2014-4-5 17:02
这效益不效益的问题总是管理层面自以为是的事情啊。

其实，技术层面的问题一旦浮出水面，剩下的就是管理问题了。

幻影 · 发表于 2014-4-5 17:39:39

bluesorrow 发表于 2014-4-5 17:38
其实，技术层面的问题一旦浮出水面，剩下的就是管理问题了。

技术层的东西大家都在提，管理层一听是成本的问题，就不了了之了。

幻影 · 发表于 2014-4-5 17:41:52

bluesorrow 发表于 2014-4-5 17:38
其实，技术层面的问题一旦浮出水面，剩下的就是管理问题了。

后面就是技术层，哈哈哈哈。。。。。哈哈哈。。。哈哈。。哈。。。

河西智叟 · 发表于 2014-4-5 18:28:55

幻影发表于 2014-4-5 17:39
技术层的东西大家都在提，管理层一听是成本的问题，就不了了之了。

也不尽然，5年有个轮回的吧。。。

XQW · 发表于 2014-4-5 19:27:18

很有技术水平。

幻影 · 发表于 2014-4-5 19:40:39

河西智叟发表于 2014-4-5 18:28
也不尽然，5年有个轮回的吧。。。

5年有点久吧。而且水平也都差很多哇。

河西智叟 · 发表于 2014-4-5 19:55:06

幻影发表于 2014-4-5 19:40
5年有点久吧。而且水平也都差很多哇。

差的不是水平，而是认真的执行。。。老外说诚信，国内有几家刚说自己是诚信的。。至少我还没见到。
学学别人的理念，知道就好，真想落实，会吐血的。。。

幻影 · 发表于 2014-4-5 19:57:40

河西智叟发表于 2014-4-5 19:55
差的不是水平，而是认真的执行。。。老外说诚信，国内有几家刚说自己是诚信的。。至少我还没见到。
学学 ...

，这个确实是。。。走偏了。

bluesorrow · 发表于 2014-4-6 09:50:19

河西智叟发表于 2014-4-5 19:55
差的不是水平，而是认真的执行。。。老外说诚信，国内有几家刚说自己是诚信的。。至少我还没见到。
学学 ...

对企业来讲，最关注的还是如何使自己的利益最大化，损失和收益之间必然要找到一个平衡点，所以风险管理必须上升到企业经营这个高度来设计和实施。没有利润的企业是不道德的

kington · 发表于 2014-4-6 09:59:11

写的非常好，让我看到了对风险工具理解上的一些误区。感谢

yuansoul · 发表于 2014-4-6 10:09:54

河西智叟发表于 2014-4-5 19:55
差的不是水平，而是认真的执行。。。老外说诚信，国内有几家刚说自己是诚信的。。至少我还没见到。
学学 ...

这个，也不要被老外的诚信所迷惑。最简单的就是卫星落后非民主国家不亮灯理论。结果就是，全境的雾霾，然后继续说：看，贫穷落后不民主的郭嘉，不顾老百姓死活的搞污染企业。。。。。。诚信，商代留下的名言：无商不奸，无奸不商。阿门

ivywen920 · 发表于 2014-4-6 10:15:47

内容太多,得专门花时间去消化

[PharmLink] 为什么风险管理在你的企业不管用之【技术篇】

欢迎您注册蒲公英

评分

相关帖子

点评

点评

点评

点评

点评

点评

浏览过的版块