欢迎光临散文网 会员登陆 & 注册

Nature对于统计量和p值的书写建议

2023-08-02 10:27 作者:章鱼G2Z  | 我要投稿

导语

前不久Nature子刊《Nature human behaviour》编辑部发布了一则编辑部通告(Editorial),严肃讨论了p值的内涵以及解释方法,旨在呼吁人们重视科学研究结论的可重复性问题。

原文附在最后面,下面是原链接

https://www.nature.com/articles/s41562-023-01586-w

以下是采用claude2进行翻译总结后的内容:

翻译部分

显著性检验的要点


我们发表的大多数采用零假设显著性检验的实证研究文章,研究者主要依赖P值来建立他们发现的科学或实际意义。然而,单独的统计显著性不能提供对科学或政策意义进行推断所需的足够信息。因此,我们要求作者除P值外,还需提供更多信息——本社论将解释我们的要求。


统计显著性和P值在过去十年受到广泛讨论。2016年,美国统计学会发表了关于P值的声明,旨在消除人们对其使用和解释的一些误解。尽管人们对P值滥用的关注有所提高,我们仍然频繁地遇到反映美国统计学会声明试图纠正的那些误解的研究。 


在我们收到的大多数采用零假设显著性检验的实证研究中,作者仅报告统计检验、自由度、检验值和P值。在某些情况下,我们只看到P值,没有其他信息。这极为有限的信息可能具有误导性,在样本量非常大的研究中则完全无意义(过度设计的研究或样本量非常大的研究可能会识别出具有统计学显著性但影响微小的效应)。因此,我们要求作者同时报告效应量和置信区间。 对零假设显著性检验统计信息的报告通常应采用以下形式:统计量(自由度)= 值;P = 值;效应量统计量= 值;百分比置信区间 = 值。


将0.05的P值门槛确定为显著的阈值是由公约建立的任意阈值。但是,如果作者选择使用零假设显著性检验,我们要求他们遵守这个公约(除非他们在研究前预注册了不同的alpha水平,并对其选择提供了可靠的理由)。诸如“边界显著”和“仅未达到统计学显著性”的P值高于0.05的传统或预先指定阈值的陈述,后接理论解释就像已拒绝零假设一样,这些都是有误导性的。超过传统或预先指定阈值的P值简单地说就不是统计学上显著的,我们要求作者据此报告。


我们在提交的手稿中遇到的最常见问题之一是,作者在没有使用正式的统计学差异检验的情况下,根据统计显著性水平进行不同研究或条件间差异的推断。在2006年的一篇文章中,Gelman和Stern提供了令人信服的解释,说明“显著性与不显著性之间的差异本身在统计上也不显著”。使用显著性水平来比较效应估计是不适当的,我们要求作者对他们争论的任何差异提供统计证据。


如果作者进行了多重比较,我们希望他们会使用适合其数据和进行的比较数量的调整或校正形式(例如,Bonferroni、Benjamini-Hochberg、家族错误率或假发现率)。这种校正是分析的一个关键部分(不仅仅是稳健性检查),所有结果解释都应基于校正后的P值。


我们根据研究问题的重要性、其跨学科吸引力的广度和证据的实质性选择研究进行同行评审和发表,而不是根据其结果。这意味着我们会发表得出主要为空结果的研究。 对报告统计上为空结果的研究,我们要求作者不要将证据缺乏解释为证据不存在。没有统计检验可以证明效应不存在。“X与Y之间没有关联”或“X对Y无效果”之类的陈述不准确,最好修正为“[没有或很少]有可信的X与Y之间存在关联的证据”或“[没有或很少]有可信的证据表明X影响Y”。

(原文:There is no statistical test that can demonstrate the absence of an effect.Statements such as there is no association between X and Y or X has no effect on Y are inaccurate,and are best revised to read '[no or little] credible evidence of an association between X and  Y' or '[no or little] credible evidence that X affects Y.)


无论主要结果还是次要结果为空,如果在文章中对这些结果进行了解释,我们要求作者使用适当的统计方法来解释它们(例如,贝叶斯因子或等价性测试)。


功效分析对所有研究都至关重要,无论结果的方向如何。在功效不足的研究中得出的空结果无法解释。如果研究人员没有使用正式方法预先指定样本量,而他们的研究的主要结果为空,我们要求他们执行功效灵敏度分析。这应证明他们的统计检验功效,跨越可能的效应量范围,包括最小的理论上或实际上有意义的效应量。


有许多呼吁让统计显著性退休或完全摆脱零假设显著性检验。然而,在这发生之前,重要的是确保发表的使用零假设显著性检验的研究能够进行统计上有效的推断,并进行适当的解释。

总结部分

1. 统计显著性和P值不能单独判断结果的科学或实际意义,应结合效应量和置信区间进行综合判断。

2. P值不应过度解释为“边界显著”,需要遵守事先确定的显著性判断标准。 

3. 不能仅根据统计显著性水平判断不同研究或条件间的差异,需要进行正式的差异检验。

4. 应对多重比较进行适当的校正调整,基于调整后的P值进行解释。

5. 不能将空结果解释为没有效应,应谨慎陈述为缺乏证据而非不存在。

6. 对空结果应使用贝叶斯因子或等价性检验等方法进行解释。

7. 研究设计中应考虑功效分析,空结果可能因功效不足而无法解释。

8. 统计显著性仍被广泛使用,需要确保其应用和解释具有统计效度。

综上,作者的核心观点是统计检验结果的解释应审慎严谨,不能过度依赖P值;应采取多种措施提高研究结果的可靠性。未来可进一步探讨替代统计显著性检验的其他可靠方法。


Nature对于统计量和p值的书写建议的评论 (共 条)

分享到微博请遵守国家法律