eeprom小胖说统计之一: 认识α,β
要了解生物统计在临床试验中的应用,首先需从认识α,β开始,就是这两个不起眼的符号贯穿了临床试验生物统计的始终。α和β的定义是比较拗口的,特别是对于那些没学过统计的人来说,这两个东西是怎么也搞不明白具体是怎么回事。虽然比较拗口,但咱还得在这里重复一下α和β的科学定义:α又称第I类错误或显著性水平,指拒绝了实际上成立的H0,β又称第II类错误,指不拒绝实际上不成立的H0。对应β的还有一个概念叫power,国内翻译为把握度,它等于1-β,指拒绝实际上不成立的H0的概率。
说得通俗一点,临床试验中你会犯俩错误,一种错误就是两种药本来没啥区别,却说成您的药优于人家的药,这就是α;另一种错误就是你的药的确优于人家的药,却说成两种药没啥区别,这就是β。那1-β呢,就是咱的优秀药物被发现的概率啊。
不知道,上边的解释,您听明白了吗?如果听明白了,小胖要问您了,谁应该最关心α啊,那又谁应该最关心β啊?
最关心α的当然是我们伟大的SFDA以及诸如FDA之类的药品审批机构啊,为啥?他们当然不
希望一种药明明和别的药没啥区别,却被药厂说成疗效更好,换言之,他们可不希望审批无效的药物进入市场。所以啊,它们要限定这种错误发生的概率,也就是我们的α了,一般情况下,α被限定为0.05。
最关心β的当然是我们的药厂了,为啥?为钱,哈哈!药厂当然不希望明明他的药优于别人的药,却被说成两种药没啥区别吧,所以它们希望降低这种错误发生的概率,也就是降低β了。换言之,他希望提高把握度(1-β),使自己的药能有更高的概率作出来优于别的药物,从而进入市场,赚取钞票。。。一般情况下,β应小于0.2,甚至0.1,对应的把握度为80%或90%。
当然药厂降低β,也就是提高把握度,会提高你试验成功的概率,但这也同时意味着同等条件下样本量的增加,样本量的增加就意味着money的增加,这些都是矛盾的,没办法,谁让这世界本来就是一个矛盾的世界呢,你只好去权衡利弊,找个平衡点呗。。。
今天就到这里吧,休息,休息。。。
comments是什么意思小胖说统计之二:怎样认识Non-positive 试验
在上一博认识完α和β后,我们继续深入探讨一下β。。。
在很多情况下,我们会经常遇到临床试验的结果是Non-positivie(P>0.05),此时你会怎么解释呢?有的同学比较干脆,看到p>0.05,就立马认为两种药无差别,更有甚者,如果对照组是安慰剂的话,那这个药就被判定为无效,彻底over了。当然这些同学未免有点武断了,其实大多数情况下,这是由于under-powered造成的,下边小胖就给大家举个例子看看吧。。。
咱保护人家的知识产权,先说明这个例子的referencnce为: Arch Pediatr Adolesc Med. 2006;160(11):1126-1129, 仅供咱参考学习之用。
试验是这样的:
本试验比较Duct Tape和placebo治疗小学儿童人乳头瘤病毒(疣)的疗效,主要疗效指标是6周后的wart resolution,最后的试验结果是Duct Tape组16%,placebo组6%,p=0.12。
看到这个结果,你会得出啥结论?别,咱先别急,先看看它的最初的样本含量和把握度设
计的叙述:
根据以往综述,placebo治疗10周后约有30%的wart resolution。假设双测检验0.05显著水平,每组需要39例病人才能有80%的把握检验出Duct Tape和placebo组wart resolution30%的的差异。考虑到失访,最终入组100例(每组50例)。
看完这个叙述,你应该会发现点东西了吧,对!研究者过高地估计了placebo的wart resolution,同时也过高地估计了两组之间的差别。研究者那个后悔啊,肠子都悔青了,后来经过反省,他发现了俩估计上的问题:
portal(1)人家以前的综述,是说10周后的wart resolution是30%,本试验主要指标是6周后的wart resolution,当然这个率应该低一些;
南京小学辅导(2)与placebo30%的差别,也太过于自信了吧,人家临床上觉得你的药有15%的提高就有临床意义了,你把标准提得这么高,不是自找麻烦吗。
根据试验结果,我们可以推算出本试验的把握度只有26%, 这么低的把握度就怪不得没做出啥来了。。。
这样吧,小胖替研究者重新设计一下,咱假设plcebo组30%wart resolution不变,把两组差异降为15%,这样算出来,每组做175例,总共350例。
假设同样的wart resolution结果,Duct Tape组16%,placebo组6%,你猜咋得?把握度大于80%,P<0.05了咱的Duct Tape有救了
说了这么半天,大家可能也闹胡涂了,算了,记住以下几点吧,随便锻炼一下英文,权当这次没白来看小胖的blog。
早饭英语1. Non-positive ONLY not conclusive
2. Not be able to detect a difference does NOT mean there is no difference
3. The predominant reason of Non-positive trials is mostly “under-powered”, rather than ineffectiveness of the test therapy
小胖说统计之三:优效、等效和非劣效试验(一)
小胖在论坛上转悠了一阵子了,发现有很多同学对优效、等效和非劣效试验都做过一些讨
论,小胖不才,在这里再给大家解释一下,权当班门弄斧,如有偏颇,大家尽管拍砖,就算小胖来找残吧,所谓小胖不入地狱,谁入地狱,小胖开博开讲了。。。
先从优效性试验开讲吧。顾名思义,优效性试验的目的是显示试验药物的疗效优于对照药。优效性检验的第一步往往是对两组进行统计学检验,看看有没有显著性差异。当两组有显著性差异后,下一步就得判断两组之间的差异是否有临床意义。这里小胖需要强调的是,统计学显著性差异并不意味着差异有临床意义。举个极端的例子,只要样本量足够大,10000甚至100000,哪怕是0.01的差异都能有统计学意义,但这个0.01的差异当然在临床上是不会被认可的。考虑到这一点,当计算优效性试验的样本量时,你假设的两组差异必须在临床上是有意义的。
关于优效性试验还有一个大家常碰到的问题是,究竟是单侧检验还是双侧检验呢?其实这个问题统计学界本身存在着争议,至于具体争议,小胖就不在此赘述了,小胖想让大家知道的是,现在通常优效性试验取的都是双侧0.05显著水平。
至于具体的统计检验,可通过双侧0.05显著水平或双侧95%可信区间两种方法来实现,当然了优效性试验要求p<0.05,或两组疗效(治疗-对照)之差的95%可信区间的下限大于
0。
cc
今天小胖就罗唆到此,下次继续。。。休息。。。
马云演讲小胖说统计之四:优效、等效和非劣效试验(二)
在上篇博客中,小胖给大家简单地介绍了一下优效性试验,不知大家明白一点没有,如大家有何问题,尽可拍砖。。。
今天继续讲一下等效/非劣效试验,首先小胖问大家一个问题,为啥要做等效/非劣效试验?其实说起来很简单,现在开发出一种疗效确实优于现有标准治疗的药那有那么容易啊,那你就要得从别的方面考虑了,就是首先保证你的药不差于人家的药的基础上,在别的方面有优势啊,不然人家为什么批准你上市。那这些别的方面的优势是啥呢?
(1) 你的药便宜,这个就不用多说了
(2) 你的药副作用少,考察一个药可不只是疗效,现在安全性也越来越重要了
(3) 你的药服用方式方便,例如,你的是口服,人家的是静脉;你的每周一次,人家的
每周三次,等等
(4) 你的药的依从性好,这个和服用方式也有较大的关系,当然也包括剂量疗程等方面的考虑
(5) 你的药能更好地改善生活质量,这年头病人生活质量改善是越来越时髦了
还有别的很多很多,反正你必须找一个让人家审评机构认可的理由,不然谁批准你啊!
关于这个非劣效检验的问题,小胖不得不先在这里发一下牢骚,可能大家也知道现在国内临床试验的现状,这几年还好,以前大家做临床试验基本上就是找个对照药,每组做个100例,两者一比较,如果p<0.05,求之不得,如果P>0.05,ok!说俺的药和人家的药没啥区别,SFDA也就稀里糊涂地批了。现在吗,进步了,SFDA也学习人家,开始在试验设计和统计上有要求了,但在缺乏原创的中国,优效试验(当然安慰剂排除)是没啥把握的,只好非劣效试验了,但非劣效试验的样本量大家是知道的,一般情况下是优效试验的4倍以上,但咱的药厂就算是外资药厂,动不动就几百个病人的试验,在这个还是销售市场驱动的中国市场,何以承受!所以现在很多药厂频频打擦边球,SFDA呢,我也不知道他怎么办的,不好评述,反正不敢恭维。。。
升值英文小胖这几年做下来的感觉,一句话SFDA和FDA的差距比中国和美国经济的差距还大,不过也没办法,人家FDA多少年了,你SFDA才几年啊,况且你SFDA面对的是仿制药横行的中国,其实冷静下来想,最适合的就是最好的,也许这是最适合中国国情的,况且它也在不断进步中,对比这几年的变化,小胖也应该为他鼓掌。。。
跑题了,跑题了,^_^。。。
下次小胖一定言归正传,好了,下次继续。。。
小胖说统计之五:优效、等效和非劣效试验(三)
上篇博客中,小胖发了一通牢骚,还望众弟兄见谅,今天小胖给大家谈一下等效性试验。
中德翻译
首先等效性试验的目的是显示试验药物的等同于对照药,这里大家要注意了,你的药要和人家的药疗效相同,既不能优于人家,也不能差于人家哦。
等效性试验主要在生物等效性研究中使用,在中国还真不少用。为啥,咱仿制药多哦,和人家原创药怎么也得做个生物等效吧。但是在生物等效性试验不可行的情况下,需做临床等效,比如说一些吸入的或局部给药的药物。
生物等效性试验一般比较药代动力学参数的90%可信区间,而临床等效呢,一般是95%可信区间。
等效性检验采用双侧可信区间,当可信区间完全落在等效界值之内,则推断为等效。至于界值咋确定,这个关键的问题小胖下次重点白话一下。。。
今儿,周末了,少写点,小胖要早点休息了。。祝大家周末愉快!
小胖说统计之六:优效、等效和非劣效试验(四)
经过一个周末的休息调整,小胖开博继续,今天着重给大家讨论一下非劣效试验界值的选择问题。
英语四级不到425有用吗首先看看非劣效试验的目的,显示试验药物的疗效在临床上不劣于阳性对照药,说白了就是证明您的药不差于人家的药。要做非劣效试验有两点特别重要,啥呢?
一是选择对照药,当然你选择的对照组必须是广泛应用的,已被证实疗效的标准用药,特别强调的是对照药以前必须在过往的优效性临床试验中证实疗效,这点不难理解,你选择了和安慰剂差不多的药做对照,还说自己的药非劣于它,这不找死吗。
二是确定非劣效界值,这是重中之重。咋确定呢?小胖在这必须严正指出,非劣效界值的确定取决于临床实践,必须由临床医生作出,统计师只是在统计理论上加以考虑,那种把非劣效界值确定一股脑全部抛给统计师的做法是相当错误的,也是极端不负责任的,从这个角度,什么SFDA规定的必须在15%还有什么20%或者其他数字之内的说法都是极不科学的。其实非劣效界值的确定,小胖总结了三原则: