好书·新书|剑指统计学“黑历史”的叛逆之作:伯努利的统计推断通向何种谬误?
将“上海书中的上海”设置为顶级明星
让书的香气与您同在
[美国]由Aubrey Clayton翻译成Chen Daiyun
Gezhi出版社
编者注:
在一个夏季的下午,一群学者与妻子一起喝下午茶,一名妇女声称在茶中加茶或在茶中添加牛奶会使茶的味道与众不同。因此,人们开始测试,发现女士每次都可以准确猜测。她是怎么做到的? ···此问题具有概率的阴影。那么,统计数据中常用的显着性测试是否完美? P值真的客观数据吗?我们是否很容易对数据迷信,然后转向数据中的谬论?这本书的作者非常雄心勃勃,并且大胆地挑战了过去一个世纪的统计大师的发展,并长期以来一直深深地植根于各个领域。他认为,我们需要采用贝叶斯方法,即将先验知识纳入不完整的信息来解决危机。
从伯诺利谬论的序言到摘录:虚幻的统计数据和现代科学危机:科学,统计学和哲学现在一如既往地彼此需要,尤其是在复制危机的背景下仍在扩散。每个人,无论他们的意识形态如何,都可能同意科学统计实践中确实存在一些问题。现在也是进行坦率对话的好时机,因为统计语言越来越多地成为我们日常公共生活的一部分。因此,我们也可能会达成共识,即统计言论可能导致滥用并使自己成为紧迫的道德问题。如何做是另一回事。在科学中,一些提出的方法论变更被支持作为解决复制危机的潜在解决方案,但没有明显的赢家出现。实际上,正在进行的讨论可以看作是自19世纪以来统计辩论中这些哲学问题的生动重新出现。简而言之,在评估提出的方法论变更是否成功地解决问题之前,有必要首先确定要解决的问题,这些决定揭示了对创造科学知识过程的哲学承诺。因为统计方法是解释测量误差和不确定性的认知作用的一种手段,无论是以观测中无法控制的随机噪声的形式出发kaiyun全站app登录入口,还是在世界状态中有限信息的不确定性。该表格来自“我们内心”,对“统计战争”(至少在频率主义者和贝叶斯阵线上)的最合适描述是,这是关于概率性质和起源的辩论。
第一种观点将概率的范围限制为原则上我们可以根据经验制作表格的意外波动的范围;第二种方法使我们能够使用概率来反映在检查一些新观察之前和之后的假设中对假设的信心程度。不幸的是,对于那些反对冲突的人来说,这里没有中立选择。作为对这些哲学承诺在实践中发挥作用的简单解释,考虑到当前关于统计和科学方法的辩论可以分为三类:问题(1):假设来自何处以及何时?如果在窥视结果后考虑了一个特定的假设,或者经过精心设计以找到最适合现有数据的假设,则可以将其视为“后理论主义”的可疑产物。有关此问题的各种建议包括方法的预注册,也就是说,在收集数据之前,有望对数据进行一些严格的解释,将研究的“探索性”阶段与研究的“验证”阶段隔离,或者。纠正多个可能的比较。问题(2):我们如何理解实验开始和结束的原因?如果允许进行实验的实验人员继续实验并收集数据,直到获得有利的结果开元棋官方正版下载,则很可能发生故障。防止这种行为的尝试包括仅根据预注册的报告(即纯粹基于方法)制定出版决策,以鼓励负面结果,并明确指定并遵守“停止规则”。问题(3):有足够的数据吗?小样本是世界各地科学家的痛苦来源,在标准的统计框架中,这会产生低功效的问题,这意味着即使有影响,我们也很有可能找不到它。
这也意味着,如果确实发现了这种影响(如果确实被发现)可能会被夸大且不太可能被复制,这是一种被称为“胜利者的诅咒”的悖论。除了简单地收集较大的数据样本(比这样做更容易说)之外,新兴的最佳实践建议还包括通过共享资源和材料,激励复制研究和荟萃分析以及为任何合适模型保留一些数据来促进协作。 “验证”或“样本测试”并执行功率分析,以确定需要有多大样本以发现有意义的效果具有很高的可能性。乍一看,这三种方法是关注的合理原因kaiyun全站登录网页入口,而拟议的解决方案似乎也是一个明智的对策,但前提是假定统计推断的标准(非乘式)模式是已知的。正如我们将看到的那样,贝叶斯统计数据为这些问题提供了自然保护,在大多数情况下,它们不再是问题。显然,提出的这些限制与通常根据证据形成和检验的假设的方式不一致。严格来说,在已知结果之后做出假设 - 这违反了保护我们免受问题的规则(1)。许多基本统计数据的典型例子,例如通过随机抽样调查的人群无法通过此类审查。例如,如果犯罪嫌疑人是根据现场收集的证据确定的,是否可以通过相同的证据确定其犯罪,或者必须收集所有新证据?是否允许科学期刊的审稿人想象有其他解释的拟合数据,还是必须预先注册这些解释?标准统计方法不自然地公平地公平了所有理论之间的竞争(无论多么无聊和古怪),因此高度关注的问题(2)(出版偏见问题)都进一步加剧了。
因此,理所当然的是,那些更令人惊讶和违反直觉的理论(以及那些最不可能具有实质性意义的理论)将在符合已建立已发表的价值标准的理论中受到更多关注。为了满足更高的证据,需要更令人惊讶的假设,这将重新调整出版的动机并消除许多无用的胡说八道。贝叶斯推论仅基于实际观察结果,实验者的其他实验计划通常不构成相关信息。当统计过程的答案被视为最终解释时,相关模型的低统计功率和过度拟合问题仅是有问题的。在贝叶斯模式下,模型参数的单个估计不被视为真理假设,假设永远不会被完全接受或拒绝。相反,随着越来越多的数据收集,不确定性逐渐改变。一个观察结果可能很有用,两个观察结果更有用,依此类推。如果我们愿意简单地让概率代表不确定性,而不仅仅是测量错误的频率,那么所有上述所有可能性都存在。因此,首先,我们需要克服哲学障碍。换句话说,与贝叶斯方法相比,标准统计技术仅使用研究假设中的一小部分可用信息(预测观察值的准确程度),因此,当有限的信息被证明是不够的,它们自然会挣扎。因此,在讨论“有问题的研究实践”时,是一个质疑这些实践是否有问题或是否有更好的方法来思考整个研究计划的绝佳时机。为此,本书包含一些有关概率和统计推断的建议,对于那些接受东正教统计的人来说,这似乎是异端的,但是经过一定的想法,这可能会改变。这越来越有意义。这些建议的共同主题是,如果解决了潜在的“疾病”,则无需继续处理统计滥用的“症状”。