蒲公英 - 制药技术的传播者 GMP理论的实践者

搜索
查看: 8889|回复: 45
收起左侧

[统计基础] 统计杂谈之正态分布

  [复制链接]
药生
发表于 2015-5-23 20:36:45 | 显示全部楼层 |阅读模式

欢迎您注册蒲公英

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 蜗牛98 于 2015-5-26 20:40 编辑

统计杂谈——正态分布
     说到数据的分布,就要说一说数据的类型。通常数据可以简单的分成离散型数据(计数值数据)和连续型数据(计量值数据)。离散性数据是由可数个或者有限多个的整数值组成的集合,比如:今年生产100批,20A30B50C,那{20,30,50}组成的集合或者{……1,2,3,……}的集合都可以看成是离散型数据;至于连续型数据,可以简单的理解成这类数据是测量出来的,不是数出来的,或者说连续型数据是一个数值的区间,这个区间内的数是不可数多个或无限多个,比如,某产品的含量控制范围为95.0~105.0%,这个区间内的数据是不可能数清楚的。
   简单说过数据类型以后,就来说说和这些数据类型相对应的数据分布形式。这里说些常用到的类型。
   常用的离散型数据的分布图,根据条件的不同有二项分布、泊松分布。二项分布是在已知事件发生几率的情况下,在N次操作中事件发生n次的概率分布。泊松分布则是二项分布的事件发生几率很低,操作次数很多的时候得到的简化公式。这类数据通常有微生物检测数据、产品不合格批次、设备故障次数等类似数据。
   
常用的连续型数据的分布图,也就是现在大家经常说到的正态分布了。我们正常得到的有小数点的随机数据都可以认为符合这个分布。比如,正常的产量数据、含量数据。
   
说到正太分布,就要说到现在很热门的质量控制图,还有大家喜欢用来当做警戒线和纠偏限(行动限)制定中的Xbar±23)σ。
   
说到的±3σ其实就是常说的控制图均值两侧间距各为3σ的区间,也就是六次格玛中的控制上限和控制下限
  
经常被六次格玛折腾的人都知道,控制图中的Xbar是样本数据集合的均值(算术平方和),而总体均值μ,因为通过样本均值去估算总体均值不太现实,所以在这里就使用Xbar直接替代了μ。
但是为什么在这里又使用代表总体标准差的σ,而不是代表样本标准差的S呢?那是因为在六西格玛统计使用的Minitab中已经通过样本的数据对总体标准差进行估计得到了总体标准差σ,所以就看到是Xbar±3σ这个公式。
这里说到的二项分布图、泊松分布图、正态分布图都应该称为概率密度分布。分布图下面的面积,就代表是事件发生的概率。
   
大家知道正态分布分布图是个标准的倒钟形,而当二项分布和泊松分布的数据量合适的时候,他们的图形也是一个倒钟形图,形成类似于正态分布的分布。

不过因为数据类型的不同,不建议大家使用这种近似,而是根据它们各自的概率公式计算事件的发生概率。
因为数据类型的不同,他们的控制图也不同,控制图中控制限度的计算公式也不同。所以在进行质量控制图制作的时候,要先分清楚数据的类型,做出合适的、正确的控制图用于质量控制。

本帖被以下淘专辑推荐:

回复

使用道具 举报

药士
发表于 2015-5-23 22:03:20 | 显示全部楼层
估计看懂的不超过8人

点评

都看懂了,怎么忽悠人啊  详情 回复 发表于 2015-5-24 08:51
回复

使用道具 举报

药生
发表于 2015-5-23 22:29:14 | 显示全部楼层
我们正常得到的有小数点的随机数据都可以认为符合这个分布

——虽然这个讲法非常非常不严谨,不过制药的人这么用用也不会怎么地哦

正态分布 不是 小正太

点评

这里没有办法严谨的,不过是让看到的对数据和分布有个大概的了解,所以起了个杂谈的名字  详情 回复 发表于 2015-5-24 08:54
这个错别字错的啊  详情 回复 发表于 2015-5-23 22:46
回复

使用道具 举报

药生
发表于 2015-5-23 22:44:20 | 显示全部楼层
yuansoul 发表于 2015-5-23 22:03
估计看懂的不超过8人

也没那么夸张啦,统计其实就是一个数据游戏,而且小样本数据得出的结论往往只是让人觉得高大上,其实仅仅只是一个数据游戏
回复

使用道具 举报

药生
发表于 2015-5-23 22:46:22 | 显示全部楼层
joshua 发表于 2015-5-23 22:29
我们正常得到的有小数点的随机数据都可以认为符合这个分布

——虽然这个讲法非常非常不严谨,不过制药的 ...

这个错别字错的啊
回复

使用道具 举报

药徒
发表于 2015-5-23 23:46:09 | 显示全部楼层
呵呵,小正太还是大正太,正态吧
回复

使用道具 举报

药徒
发表于 2015-5-23 23:48:16 | 显示全部楼层
样本量达到一定数量才有显著的统计学意义,一般的厂很少能做大量稳定的数据。

点评

我们做控制的目的是找出造成数据不稳定的原因,纠正,最后使数据稳定  详情 回复 发表于 2015-5-24 08:52
回复

使用道具 举报

药徒
发表于 2015-5-24 07:13:26 | 显示全部楼层
回复

使用道具 举报

药徒
发表于 2015-5-24 07:22:42 | 显示全部楼层
谢谢蜗牛的分享,给我们开了个头,正态分布在统计学中的地位举足轻重,有了这个开篇,统计学学习也就有基础了
回复

使用道具 举报

药徒
发表于 2015-5-24 08:05:13 | 显示全部楼层
数量统计好久不看了,看来得重新学习一下了。
回复

使用道具 举报

药徒
发表于 2015-5-24 08:46:23 | 显示全部楼层
现在的趋势分析都用六西格玛做,看起来正规好看,能再详细说些更好
回复

使用道具 举报

药生
 楼主| 发表于 2015-5-24 08:51:11 | 显示全部楼层
yuansoul 发表于 2015-5-23 22:03
估计看懂的不超过8人

都看懂了,怎么忽悠人啊

点评

你这数据是怎么得出的  详情 回复 发表于 2018-8-29 15:33
说的对,蜗牛,欢迎以后常来统计版块看看哈,给大家分享一些统计学知识。 我最近也准备写一点,先从基础开始了  详情 回复 发表于 2015-5-25 12:07
回复

使用道具 举报

药生
 楼主| 发表于 2015-5-24 08:52:06 | 显示全部楼层
hlmxjzb@163.com 发表于 2015-5-23 23:48
样本量达到一定数量才有显著的统计学意义,一般的厂很少能做大量稳定的数据。

我们做控制的目的是找出造成数据不稳定的原因,纠正,最后使数据稳定
回复

使用道具 举报

药生
 楼主| 发表于 2015-5-24 08:54:28 | 显示全部楼层
joshua 发表于 2015-5-23 22:29
我们正常得到的有小数点的随机数据都可以认为符合这个分布

——虽然这个讲法非常非常不严谨,不过制药的 ...

这里没有办法严谨的,不过是让看到的对数据和分布有个大概的了解,所以起了个杂谈的名字
回复

使用道具 举报

药士
发表于 2015-5-24 09:45:23 | 显示全部楼层
假设某百分天平测量某一堆样品。就比如说是100mg的片子了。

数据最多精确到0.01mg。考虑到装量差异,通常测量的范围大概也就在95.01mg~104.99mg之间了。

那这个到底算离散型数据还是连续性数据。一般会认为是连续性数据,但是在这个范围内严格来说,或者钻牛角尖来说,“不是”不可数多个或无限多个。

点评

这种测量出来的数据,一般都是连续型数据 一般离散型数据都是那种整数,只要不是整数基本上都是连续型数据 无限多个和不可数多个:就想你称量的出来在你给出来的范围里面,品种存在无数可能的 所以说,有时候还是  详情 回复 发表于 2015-5-26 20:46
回复

使用道具 举报

药士
发表于 2015-5-24 09:54:23 | 显示全部楼层
另外,要么确实不是正态分布,要么是测量获取方法有问题。实际上很多数据连是不是“正态分布”这个坎都迈不过去。后续的统计方法也就先天站不住脚了。

点评

我见过一组设备制造公司的一组数据,因为数据的测量精度的问题,在三位小数的时候,数据不是正太分布。当用到4位小数的时候,就是很好的正太分布了。 其实很多时候我们的数据精度要求的没有那么高,就看不出数据的分  详情 回复 发表于 2015-5-24 11:32
回复

使用道具 举报

药徒
发表于 2015-5-24 10:39:54 | 显示全部楼层
关于正态分布能举个栗子么?

点评

这个例子很多的,百度一下,百科上面有很详细的介绍  详情 回复 发表于 2015-5-24 11:33
回复

使用道具 举报

药生
 楼主| 发表于 2015-5-24 11:32:13 | 显示全部楼层
红茶. 发表于 2015-5-24 09:54
另外,要么确实不是正态分布,要么是测量获取方法有问题。实际上很多数据连是不是“正态分布”这个坎都迈不 ...


我见过设备制造公司的一组数据,因为数据的测量精度的问题,在三位小数的时候,数据不是正太分布。当用到4位小数的时候,就是很好的正太分布了。
其实很多时候我们的数据精度要求的没有那么高,就看不出数据的分布情况
所以很多时候找出合适的方法来对数据进行分析,才是最应该的,而不是只盯着正太不放
回复

使用道具 举报

药生
 楼主| 发表于 2015-5-24 11:33:15 | 显示全部楼层
anglehzh 发表于 2015-5-24 10:39
关于正态分布能举个栗子么?

这个例子很多的,百度一下,百科上面有很详细的介绍
回复

使用道具 举报

药士
发表于 2015-5-24 15:44:38 | 显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

×发帖声明
1、本站为技术交流论坛,发帖的内容具有互动属性。您在本站发布的内容:
①在无人回复的情况下,可以通过自助删帖功能随时删除(自助删帖功能关闭期间,可以联系管理员微信:8542508 处理。)
②在有人回复和讨论的情况下,主题帖和回复内容已构成一个不可分割的整体,您将不能直接删除该帖。
2、禁止发布任何涉政、涉黄赌毒及其他违反国家相关法律、法规、及本站版规的内容,详情请参阅《蒲公英论坛总版规》。
3、您在本站发表、转载的任何作品仅代表您个人观点,不代表本站观点。不要盗用有版权要求的作品,转贴请注明来源,否则文责自负。
4、请认真阅读上述条款,您发帖即代表接受上述条款。

关闭

站长推荐上一条 /1 下一条

QQ|手机版|蒲公英|ouryao|蒲公英 ( (京)-非经营性-2014-0058 京ICP证150354号 京ICP备14042168号-1 )

GMT+8, 2024-5-14 11:36

Powered by Discuz! X3.4运维单位:苏州豚鼠科技有限公司

Copyright © 2001-2020, Tencent Cloud.

声明:蒲公英网站所涉及的原创文章、文字内容、视频图片及首发资料,版权归作者及蒲公英网站所有,转载要在显著位置标明来源“蒲公英”;禁止任何形式的商业用途。违反上述声明的,本站及作者将追究法律责任。
快速回复 返回顶部 返回列表