Icey One
My wish is to see you again, even across the world.
译 | 你应该知道的统计学

译者按:本文译自 What Educated Citizens Should Know About Statistics and Probability

  1. 本人并非统计学专业人士, 所以对于名词理解不到位敬请见谅.
  2. 本文系科普文章, 且可在网路上直接下载, 所以我认为翻译后并不会侵犯到原作者利益, 故在此发表, 如侵犯到原作者利益请联系我删除.
  3. 感谢 Y 小姐的监督与催更, 不然我早把这个给忘了.

0. 摘要

数理统计自从被引进大学课堂以来发生了很大的变化, 但是教授的手段却并没有随之改变. 本文讨论了这些变化, 以及入门课程大纲应该改变以反映它们的方式. 特别讨论了每个学习初级统计学的学生都应该学习和理解的七个观点, 以便成为一个(合格的)受教育的公民. 对这些主题的误解充其量会导致公众的愤世嫉俗, 但是对于政策制定者、医生和其他人来说滥用研究结果则会造成更大的灾难.

关键词:巧合;实际意义;统计教育;统计素养;调查偏差.

1. 导论

主流报纸每天或每周都会重点报道统计研究, 但大多数公民甚至许多记者都不具备批判性的阅读它们所需的知识. 当统计学课程第一次被引入时, 主要是那些打算进行自己的研究的学生, 或者是那些被专业要求在培训中分析数据的学生参加的. 这些课程的重点是计算, 很少强调如何以有意义的方式将研究设计中的信息整合到最终结论中. 从那以后, 发生了很大的变化, 主要体现在三个方面:读者、学生可用的工具以及周围的世界.

在许多大学, 大部分专业的学生都需要参加统计入门课程. 他们中的绝大多数不会统计分析. 因此, 我们发表到报刊, 由媒体报道的文章或研究应该让他们理解. 有趣的是, 读者在另外两个方面也发生了变化. 首先, 统计入门课程的学生似乎不像早期那样擅长定量推理, 这可能是因为专业的范围更广泛. 并且有更多的社区学生, 他们的兴趣可能与传统的大学生不同.

毫无疑问, 可供学生使用的工具近年来发生了变化. 大多数学生带着复杂的计算器进入大学, 至少能算出平均值和标准差, 并且通常能够完成介绍性统计课程中教授的大部分程序. 此外, 人们可以普遍使用计算机, 并且 Excel 等具有统计功能的程序. 在过去的几十年里, 甚至统计软件的使用也发生了变化, Minitab 和 SPSS 等程序是图形菜单驱动的, 使新手易于学习和使用.

我们周围的世界也发生了变化. 统计研究定期在报纸和杂志上报道, 因此学生很可能会经常遇到它们. 而且, 对于课堂教学使用(的数据), 互联网上有大量数据可通过 the Gallup OrganizationUSA Today、劳工统计局等网站获得. 此外, 许多期刊文章都可以在线获得, 因此教师和学生很容易找到统计研究的设计、实施、分析和结论的完整示例.

所有这些变化的结果是不再需要强调计算, 而需要更多地关注理解统计研究是如何进行和解释的. 相关和有趣的例子很容易获得. 然而, 许多教师教授介绍性统计知识的方式并没有做出任何改变.

2. 七个重要的话题

当然, 在初级统计学课程中有很多话题需要被讨论. 在本文, 我有选择了七个我发现的公民存在普遍误解的话题, 这里面(上述公民)包括向公众展示统计研究的记者. 事实上, 研究人员自己在期刊和科学会议上发表他们的研究结果, 记者从中挑选他们的故事, 他们误解了这些话题. 如果所有的统计学入门的学生都理解它们, 那么与概率统计相关的混淆和误解就会少得多. 事实上, 公众对统计研究常常持怀疑态度, 因为这些误解会导致大量研究结果自相矛盾, 医学研究尤其如此, 当医生和患者都无法正确解释统计结果时, 误解可能会产生严重后果. 首先是对本文所涉及的七个主题的总结, 然后是更深入的解释, 每个主题都带有示例:

  1. 可以判断什么是因果关系, 什么不是, 包括随机试验与观察性实验的区别.
  2. 统计意义与实用意义是不同的, 在使用大量数据时尤其需要注意.
  3. 发现“无功效”和“无统计学意义的影响“之间的差异, 尤其是样本很小的时候.
  4. 调查和实验中常见的偏见来源, 例如问题的措辞不佳、志愿者的反应和社会期望的答案.
  5. 巧合和“不可能”的情况并不少见, 因为有太多可能性.
  6. “条件概率混淆”将一个命题的条件概率与另一个命题的条件概率相混淆.
  7. 理解变量是正常的, 而“正常”和“平均”是不一样的.

3. 因果关系

新闻中关于统计学的误解可能得出这样的结论:当统计意义上不显著时, 他们通常会说变量 a 变化是其他变量变化的原因. 这个结论只有在非常有限的情况下成立, 例如在大型随机试验中(这个结论是合理的). 但单独一次观察实验中, 很少会有一个变量的变化导致其他变量改变的情形. 所以对统计学的学生来说, 理解随机试验和观察实验的区别, 以及了解条件概率如何限制观察研究得出的结论是很重要的.

在这里举个例子, USA Today 上有一个名为《祈祷可以降低血压》(Davis 1998)1的文章. 这个文章报道了一个观察实验的结果, 这个实验由美国国家健康组织开展, 对 2,391 个 65 岁以上的老人进行了为期 6 年的跟踪调查, 其中一个结论是这样的:

一项研究数据表明:参加宗教活动的人比收听宗教电视机或电台的人血压更低. 一星期参加一次宗教活动并祷告或每天学习圣经的人比那些不参加的人患高血压的几率低 40%.

标题和前面的引文都表示了参加宗教活动确实可以降低血压, 但是没有办法根据这项研究确定(上面的)因果关系. 可能是更健康的人更有能力参加宗教活动, 如果真是这样的话, 原因和结果就恰好相反;或许人们可以通过社交活动降低压力, 因此血压更低, (这群人也)更喜欢去教堂. 在这个实验中还有很多其他可能的条件概率可以来解释观测到的结果. 但是问题是读者可能错误的认为如果他们改变自己的行为, 经常去教堂祷告就可以降低血压.

另一个例子表明即使是科学工作者也会犯错, 一个发表在 The Sacramento Bee 的文章报道了一项对 6,000 多名平均年龄在 70 岁的人的观察实验. 随着时间的推移对他们进行了跟踪调查, 发现大多数(超过 70%)的参与者没有随时间推移而降低认知能力. 其中一个结果是这样的:“患有糖尿病和高等级动脉硬化的人患有阿兹海默症的几率是其他人的 8 倍”(Perkins 1999)2. 到现在还好, 因为起码没有暗示风险的增加是因果关系. 然而 Perkins 将这个结果被这样引申

这是个好消息, 它暗示了阿兹海默症的一个方法. 如果我们能预防动脉硬化, 我们也就能预防阿兹海默症, 而且我们知道如何预防动脉硬化——低脂肪饮食、控制体重、锻炼、戒烟、使用药物治疗(Perkins)

换句话说, 这个作者事前预设了动脉硬化导致了认知能力的下降. 但是有很多其他因素或许也可以导致高水平的动脉硬化和认知下降, 例如遗传、某些病毒、生活方式等.

当因果关系合乎逻辑, 或者当人们能够理解因果机制如何运行时, 抵制得出因果关系的诱惑尤其困难. 因此, 在向学生说明这一概念时, 重要的是给出许多例子, 并讨论条件概率如何影响这些关系. 幸运的是, 例子很容易找到. 很多主流报纸和网络新闻每周都会做很多报道, 而他们也经常会做出可能错误的判断.

4. 统计特征与实际意义

学生需要理解统计学上的巨大发现可能没有太大的实际意义, 在样本量很大的时候尤其如此. 即使影响非常小也很容易拒绝零假设.

在这里举个例子, New York Times 有一篇标题是《网络中悲伤、孤独、分裂的世界》(Hormon 1998)3的文章, 其中有一句话是这么说的:

每周花几小时上网的人比频率那么高的人有更高的压力与孤独感……这里提出了关于“虚拟的”交流和网络空间中形成的无实体的关系是一个令人不安的问题.

听起来好像是研究员发现人们经常上网的主要原因, 但是如果仔细调查的话会发现上不上网的差距很小. 在 1(更孤独)——5 的量表中, 自我评估的平均值从 1.99 降至 1.89. 0——3 的量表中, 平均值从 0.73 降至 0.62.

再举个例子, 它将说明如果调查的样本量很大才能得到统计上的明显差异, 可能对公众来说没有意义. 原始报告发表在 Nature上(Weber、Prossinger 和 Seidler 1998)4, 而路透社在雅虎健康新闻网站上的一篇文章的标题是《春季出生具有身高优势》(1998 年 2 月 18 日). 文章描述了一名奥地利学者对 507,125 名新兵的身高进行的一项研究, 发现春季和秋季出生的新兵之间存在显着差异. 他们的平均身高差有 0.6 cm 的差异. 虽然这对学者来说有很重要的研究意义, 但是这并不是我们一般意义上的“身高优势”

一个相关的问题是, 可能做了多重比较和分析, 但是只有那些达到统计学意义的太会被报道. 虽然大多数研究中, 在研究问题时会利用多种方法进行多维分析, 但是却只会报道那些具有明显统计特征的方法和结论. 例如, 一项研究阿司匹林或激素效果的随意实验可能会检查他们和多种症状的关系, 例如心脏病, 中风和各种类型的癌症. 如果研究者没有进行多重分析, 而仅仅将注意力集中在那些具有统计关系的关系上, 那么就很容易让读者误解为是仅仅测试了单独的几项关系. 虽然这里不是在专门讨论多元分析问题, 但在讲解统计关系的时候, 与学生讨论这一点尤为重要.

5. 低功效和无影响

同样重要的是让学生明白, 样本量在关系或差异是否具有统计学意义方面起着很大的作用, 发现 “无差异 “可能仅仅意味着统计功效不足. 例如, 假设一项研究是为了确定是否有超过一半的人口拥有某种观点, 所以测试考虑 H_0:p = 0.5 与 H_1:p > 0.5. 如果事实上有多达 60% 的人有这种观点, 那么 100 个样本量只能有0.64的力量. 换句话说, 仍有36%的机会不能拒绝无效假设. 然而, 记者们经常大肆宣扬一项研究 “未能复制 “先前的发现, 而实际上效果的大小与最初的研究相仿, 但研究的样本数量太小, 无法检测出其统计学意义.

接着举一个具有重要影响的例子, 1993 年 2 月 由美国国家癌症研究所(NCI)主办的一次会议他们对八项关于乳房 X 光检查作为筛查设备的有效性的研究进行了综合分析. 关于 40-49 岁的女性的结论是“对于这个年龄组, 很明显, 在进入研究后的前 5-7 年, 筛查并没有降低乳腺癌死亡率”(Fletcher 等人, 1993)5

这里有问题的词是“没有降低”. NCI 和美国癌症协会之间展开了辩论. 这里两篇引文是关于这个问题的说明:

美国癌症政协会的一位发言人周二表示, 该研究不会改变组织的建议, 因为他的规模不足以得出明确的结论. 该研究必须对 100 万女性进行筛查才能得到确定的答案, 因为乳腺癌在年轻女性中非常罕见(San Jose Mercury, 1993.11.24).

即使汇集了八项随机对照实验的数据, 也没有足够的统计能力表面是否筛查是否有益. 在这八项实验中, 只有 167,000 名女性(占参与者总数的 30%), 这个数字太小而不能得出具有统计意义的结果. (Sickles 和 Kopans, 1993)6

随访七年后, 相对风险的置信区间为 0.85-1.39, 点估计为 1.08, 表面改年龄组妇女的死亡率可能略有降低, 也可能略有增加(Utts 1999, p 433)7. 原来说的“死亡率没有降低”是一种危险的误导.

这里需要吸取的教训是, 当学生在一项研究中没有发现研究人员得出的预期的影响和关系时, 他们应当警惕. 一般来说, 只有当这一结论与之前的发现或者常识矛盾时才有被报道的价值. 在这种情况下, 找出样本的大小很重要, 如果可能的话, 找出结果的置信区间. 如果置信区间很宽, 或者置信概率很低, 就有理由怀疑该研究没有足够的力量来检测真正的差异和关系.

统计功效不再是入门课程中需要回避的话题, 因为很容易可以找到可以进行计算的软件, 而且这个概念也并不比第一类, 第二类错误的概念更难. Minitab 可以计算初级统计课程中大多数的测试功效, 并且有一些可用的网站, 例如由 John Pezzulo 维护的 members.aol.com/johnp71/javastat.html 是一个很好的网站, 它记录了几百个用于统计计算的网站的链接

6. 调查中的误差

调查中的误差可能有不同的来源. 除非了解所有的细节, 否则很难发现其中非常严重的误差. 例如 1999.07.09 发布的 Gallup 民调, 基于 1016 名美国成年人的随机调查, 随机问了两个不同的问题, 每个问题都可以用来反映赞同美国公立学校应该教授创世论的人的百分比. 这两个问题和回答“同意”的比例是

问题一:你赞成公立学校一起教进化论和神创论吗?(68% 赞同)

问题二:你赞同公立学校教授神创论取消进化论吗?(40% 赞同)

请注意, 根据自己的意见, 这些结果也会有不同的用法. 支持神创论的人会说 68% 的人同意教授神创论, 而反对神创论的人则会说只有 40% 的人认为应该教授.

不仅仅是问题的措辞会导致误差. 在调查过程中还有许多其他细节, 这些细节看似微小, 却能产生巨大影响. 例如, 有时提问的顺序会改变调查结果. Clark 和 Schober(1992, p 41)8

报道了一项调查, 提出了如下两个问题:

  1. 你对生活的总体满意度如何?
  2. 你多久约会一次?一月几次?

受访者对这两个问题的回答几乎没有关系. 但是, 当再次进行调查并首先提出问题 2 时, 答案是高度相关的. Clark 和 Schober 推测, 在这种情况下, 受访者将问题一理解为“现在, 考虑你刚刚告诉我的关于约会的事情, 你对生活的满意度如何?”受访者自然认为调查问卷上的问题是相关的, 一个问题带来的任何问题都可能影响后续问题的答案.

问题的措辞、顺序、样本的选择方法和其他问题还有其他许多其他方式可以使调查结果产生误差. 更多的例子见 Tanur(1992)9、Utts(1999)7或 Utts 和 heckard(2003)4

7. 巧合的概率

大多数人在他们的生活中经历过许多一件或多件看似不可能的巧合事件. 一些事情由于过于离谱以至于吸引了媒体的关注, 通常是报道这个概率是多么的小. 例如, Plous(1993)10报道了一个故事, 其中 Richeard Baker 夫妇离开了一家购物中心, 他们在停车场发现了一辆车, 以为是自己的并且开走了它. 几分钟后他们意识到他们开错了车. 在开车回到停车场的时候发现警察在等他们. 原来他们驾驶的车是另一个 Baker 先生, 他有同一辆车, 连钥匙都一模一样. Plous 的论文中说, 警方估计这种概率是一百万分之一.

这些故事的问题是在于他们计算的概率是基于错的条件. 计算结果很可能适用于已经发生的事情. 一个更加符合逻辑的问题是:该事件或者类似时间在什么时间, 什么地点, 在什么人身上发生的概率是多大?在通常情况下, 这个概率非常大.

例如, 我曾经参加过一个关于运气的脱口秀节目, 有一个人两次赢得了纽约的百万美金彩票, 主持人认为他的运气非常好. 虽然对于这个人来说确实, 但是 Diaconis 和 Mosteller(1989)11报道了同一个人在七年的时间内在美国获得州彩票的概率是均等的, 而这正是该人获得两次彩票的时间间隔.

要计算出巧合的概率并不容易, 但可以向学生展示近似数量级的结果. 例如, 有很多分开成长的双胞胎的故事, 他们成年后相遇并发现他们共同特征非常多. 也许他们的妻子或孩子有相同的名字, 在开同一种车, 从事着同样的职业. 做一个粗略的近似, 假设两个相同年龄和性别的人在同样对比条件中“匹配”的概率是 1/50, 并且这些对比条件互相独立. 此外, 假设在相互了解的过程中, 他们讨论了 200 个条件, 这肯定是个不现实的数字. 那么“匹配”的数量就是 EX=np=4, 即使有 6 个或者更多的条件“匹配”概率也很高, 是 0.21. 但是这个重点是那些匹配的条件, 而不是讨论过但不匹配的几十个条件.

即使报告了一个概率极低的事件, 也请记住世界上有 60 多亿人, 每天每个人都会遇到许多情况. 因此肯定会有看起来不可思议的事情. 事实上, 如果某事在某一天在任何一个人身上发生的概率只有百万分之一, 那么它平均也会发生在 6000 多人身上. 当媒体报道一个巧合时, (我们)应该从这个角度来看待它.

8. 条件概率谬误

大多数统计学教师都知道, 概率会让学生非常的困惑, 而且对概率的直觉也不是很好. 心理学家称这个问题为“条件概率谬误”. 这个问题的原因是人们对 P(A|B) 和 P(B|A) 的理解错误 .

例如, Eddy(1982)12向 100 名医生设定了这样的情景:

你的一个病人乳房有一个肿瘤. 你几乎可以确定他是良性的, 事实上你会说只有 1% 的概率是恶性的. 但是为了确定, 你让患者接受一项检测癌症的 X 光检查.

你从文献中知道, 乳房 X 光检查对 恶性肿瘤的准确率为 80%, 对良性肿瘤的准确率为 90%. 换句话说, 如果肿瘤确实是恶性的, 那么检查结果 80% 会说他是恶性的, 20% 的概率说他是良性的. 如果肿瘤是良性的, 那么结果 90% 说是良性的, 10& 会说他是恶性的.

不幸的是, 检测结果出来了, 是恶性的. 他真正是恶性的概率有多大?

大多数医生的回答是 75% 的答案. 但是事实上, 考虑到所提及的概率, 正确答案只有 7.5%!Eddy 说:”当被问及这个问题时, 答错的医生通常会说, 他们假定患者 X 射线呈阳性的概率等于癌症患者 X 呈阳性的概率(1982, p 125)12“换句话说, 医生把妇女患癌症的阳性概率与检测呈阳性的妇女患癌症的概率混淆了.

绝大多数医学检测的假阳性和假阴性概率都很低, 然而如果患病的初始概率都很低, 那么再检验结果为阳性的概率下真是患病的概率将相当低. 这种情况下, 大多数阳性结果都将是假阳性.

我发现为学生说明这个概念的最简单的方法就是“假设有十万人”(Utts 和 Heckard 2003, p 228)13, 这里是一个显示十万人的结果的理论分析表. 表 1 用 Eddy 向医生提出的问题为例. 请注意检测结果为恶性的 10,700 名患者中, 只有约 800 人, 及约 7.5 的患者实际上有恶性肿瘤. 因为患有良性肿瘤的女性比恶性的多得多, 其中 10% 的假阳性占了绝大多数阳性检测结果.

测试为恶性 测试为良性 总计
恶性 880 200 1000
良性 9,900 89,100 99.000
总计 10,700 89,300 100,000

还有其他许多情况适用于该问题. 例如美国汽车协会交通安全基金会(Stutts et al 2001)14的研究报告被广泛宣传, 因为他们发现事故中只有 1.5% 的司机使用了手机, 而 10.9% 的司机说他们被车内另一个人分散了注意力. 许多媒体报道的结论是, 这意味着相较于手机, 其他行为例如与车内人交谈或听收音机更容易引发事故.

但请注意, 这算是混淆了两个条件概率. 据报道, 司机使用手机的事故比例为 1.5%, 是司机在发生事故时的概率. 在司机使用手机的情况下, 他/她发生事故的概率和(对手机的)兴趣是成反比的. 而这个概率不能从报道的数据中找到, 因为它取决于手机的普及率. 但是几乎可以肯定的是, 在任何给定的时间内, 与乘客交谈的司机比使用手机的司机多得多. 这项研究也因为其他方面的原因被批评;更多批评请参阅“Car Talk”广播电台的节目(Magliozzi 和 Maglizzi 2001)15;其中一位(Tom)拥有 Boston 大学博士学位, 对统计学的理解很深.

9. 平均(值)和正常

学生需要的理解的第七个概念是自然变化以及它在“正常”方面的作用. 这有个幽默的例子, 选自 Utts 和 Hackard(2003)13 加利福尼亚戴维斯附近有一家公司的废水处理设施有异味, 他们将其归咎于“异常降雨”:

去年严重的气味问题是由于厄尔尼诺现象在伍兰德市的极端天气造成的(公司办公室这么说). 她说伍兰德的降水量是正常降水量的 170% 到 180%. ”过多的降水意味着蓄水池的水需要更长的时间才能排放, 从而有更多的时间产生异味“(Goldwitz 1998)16

这个推理的问题在于, 年降雨量是很容易变化的. 在加州戴维斯地区, 从 1951 到 1997 年间以英寸为单位的降雨量的五个值分别为 6.1、12.1、16.7、25.4、37.4(分别为最小值, 四分之一数、中位数、四分之三数、最大值). 概念的降水量为 29.7 英寸, 完全在“正常”范围内. 公司将“平均”和“正常”搞混了. 这种错误在温度和降雨数据的报告或是许多其他情况下很常见. 自然的(随机)变化的概念对理解统计结论非常重要, 因此应该在入门课程中强化这一概念.

10. 结论

本文所讨论的问题构成了统计学中常见且重要的清单. 虽然还有其他的误解, 但是我发现这些误解非常普遍以至于数百万人正在被它们误导. 我们这些教授统计学课程的教师有的人确保我们的学生不在其中.

许多大学现在除了传统的统计初步课程外或许还开设了统计素养课程, 人们很容易认为这些主题属于这些课程(后者)而不是传统课程. 但是重点是, 如果学生无法阅读报纸文章并确定假设检验被滥用, 那么知道如何进行 t 检验有什么用?

将本文所涵盖的主题纳入传统的统计学课程并不难, 事实上, 如果有好的例子, 学生会很乐意学习这些内容. 2 和 3 讨论了统计意义与样本量之间的关系, 应该是讨论第一型错误和第二型错误的内容. 5 和 6 可以和概率的学习结合, 事实上也是寻找概率的有趣的例子. 其中 7 中自然变化是正常的一部分可以在课程早期讨论均值和观测值时讲授.

避免关于观察性研究这种因果关系造成影响的主题 1, 以及关于调查中的误差的 4, 是唯一可能需要添加到教学大纲中的主题. 但我认为重要的是至少简要概述统计研究的类型以及它们是如何完成的, 这样数据收集对学生来说也不完全是谜团了. 一个解释观察性研究和随机试验的区别的讲座, 以及条件概率的混淆在解释观察性研究重点作用比一打关于统计推断程序的讲座更能帮助学生做好阅读新闻的准备.

本文的重点是帮助学生解释统计研究. 那些对最终会进行自己研究和数据分析的学生有什么用呢?我认为这些想法对那些学生来说更重要. 我在许多博士生考试委员会任职, 这些学生在进行各个学科的研究. 我问每个学生两个问题. 一个是解释概率 p 的含义, 另一个是用较小的样本量复现具有重要发现的研究——他们惊讶地发现复现的研究不能得出相应的统计结论. 我要他们给出可能的解释. 很遗憾的是, 许多学生很难回答这些问题, 即使事先我会把问题告诉他们. 当任何一个上过统计课程的学生都能回答这些问题以及关于本文主题和相关概念的类似问题时, 我就知道我们完成了教育公民的使命.

References

[1] Clark, H. H., and Schober, M. F. (1992), “Asking Questions and Influencing Answers,” in Questions About Questions, ed. J. M. Tanur, New York: Russell Sage Foundation, pp. 15–48.

[2] Davis, R. (1998), “Prayer Can Lower Blood Pressure,” USA Today, August 11,1D

[3] Diaconis, P., and Mosteller, F. (1989), “Methods for Studying Coincidences,”Journal of the American Statistical Association, 84, 853–861.

[4] Eddy, D. M. (1982), “Probabilistic Reasoning in Clinical Medicine: Problems and Opportunities,” in Judgment under Uncertainty: Heuristics and Biases, eds. D. Kahneman, P. Slovic, and A. Tversky, Cambridge, UK: Cambridge University Press, chap. 18.

[5] Fletcher, S. W., Black, B., Harris, R., Rimer, B. K., and Shapiro, S. (1993), “Report on the International Workshop on Screening for Breast Cancer,” Journal of the National Cancer Institute, 85, 1644–1656.

[6] Goldwitz, A. (1998), “The Davis Enterprise,” March 4, A1.

[7] Harmon, A. (1998),“Sad, Lonely World Discovered in Cyberspace.”New York Times, August 30, A3.

[8] Magliozzi, T., and Magliozzi, R. (2001),”How AAA’s Foundation for Traf-fic Safety Misused Otherwise Good Data,”online at http://www.cartalk.cars.com/About/Drive-Now/aaa.html .

[9] Perkins, K. D. (1999), “Study: Age Doesn’t Sap Memory,” Sacramento Bee, July 7, A1, A10.

[10] Plous,S. (1993), The Psychology of Judgment and Decision Making, New York: McGraw Hill.

[11] Stickles, E. A., and Kopans, D. B. (1993), “Deficiencies in the Analysis of Breast Cancer Screening Data,” Journal of the NationalCancer Institute, 85, 1621–1624.

[12] Stutts, J. C., Reinfurt, D. W., Staplin, L., Rodgman, E. A. (2001), “The Role of Driver Distraction in Traffic Crashes,” Technical Report; available online at www.aaafoundation.org , May 2001.

[13] Tanur, J. (ed.) (1992), Questions About Questions: Inquiries into the Cognitive Bases of Surveys, New York: Russell Sage Foundation.

[14] Utts, J. M. (1999), Seeing Through Statistics (2nd ed.), Belmont, CA: Duxbury Press.

[15] Utts, J. M., and Heckard, R. F. (2003), Mind On Statistics (2nd ed.), Belmont, CA: Duxbury Press.

[16] Weber, G. W., Prossinger,H., and Seidler, H. (1998), “Height Depends on Month of Birth,” Nature, 391, Feb. 19, 754–755.

Index

本部分为部分统计学名词翻译中英对照, 以及对于部分概念进行必要的解释.

置信区间(Confidence interval)

在统计学中, 一个概率样本的置信区间(Confidence interval, CI), 是对产生这个样本的总体的参数分布(Parametric Distribution)中的某一个未知参数值, 以区间形式给出的估计. 相对于点估计(Point Estimation)用一个样本统计量来估计参数值, 置信区间还蕴含了估计的精确度的信息.

如进行产品质量检测时的 95% 置信区间即为有 95% 的概率为合格

点估计(point estimation)

点估计是指以样本数据来估计总体参数, 估计结果使用一个点的数值表示“最佳估计值”, 因此称为点估计. 由样本数据估计总体分布所含未知参数的真实值, 所得到的值, 称为估计值.

与之对应的是区间估计

假设检验

统计上对参数的假设, 就是对一个或多个参数的论述. 而其中欲检验其正确性的为零假设, 记为 H_0, 零假设通常由研究者决定, 反映研究者对未知参数的看法. 相对于零假设的其他有关参数之论述是备择假设, 记为 H_1, 它通常反应了执行检验的研究者对参数可能数值的另一种(对立的)看法(换句话说, 备择假设通常才是研究者最想知道的).

第一类错误和第二类错误

即为假设检验粗错的两种错误, 详见下表

H_0 为真 H_1 为真
拒绝 H_0 错误(伪阳性、第一类错误) 发生概率 α 正确 发生概率 1-β
不拒绝 H_0 正确 发生概率 1-α 错误(伪阴性、第二类错误) 发生概率 β

功效(power)和影响(effect)

功效为统计意义上的影响, 影响和功效对立, 即为造成的实际影响

条件概率

事件 A 在事件 B 发生的条件下发生的概率. 条件概率表示为 P(A|B), 读作“A在B发生的条件下发生的概率”, 经典例子是下雨和带伞的问题.

条件概率谬误(Confusion of the inverse)

一般人对于条件概率错误的理解, 例如医学检测中假阳性的判别, 中彩票的概率等等

References add

上部分为原文参考文献, 本部分为译者在翻译原文时参考的书目或网络文章.

[1] 张天蓉:基本比率谬误(base rate fallacy)

[2]《概率论基础》李贤平

[3] 如何理解统计学中的 Power https://songchunlin.net/cn/2014/04/statistical-power/

[4] Conditional probability https://en.wikipedia.org/wiki/Conditional_probability


  1. Davis, R. (1998), “Prayer Can Lower Blood Pressure,” USA Today, August 11,1D ↩︎

  2. Perkins, K. D. (1999), “Study: Age Doesn’t Sap Memory,” Sacramento Bee, July 7, A1, A10. ↩︎

  3. Harmon, A. (1998),“Sad, Lonely World Discovered in Cyberspace.”New York Times, August 30, A3. ↩︎

  4. Weber, G. W., Prossinger,H., and Seidler, H. (1998), “Height Depends on Month of Birth,” Nature, 391, Feb. 19, 754–755. ↩︎ ↩︎

  5. Fletcher, S. W., Black, B., Harris, R., Rimer, B. K., and Shapiro, S. (1993), “Report on the International Workshop on Screening for Breast Cancer,” Journal of the National Cancer Institute, 85, 1644–1656. ↩︎

  6. Stickles, E. A., and Kopans, D. B. (1993), “Deficiencies in the Analysis of Breast Cancer Screening Data,” Journal of the NationalCancer Institute, 85, 1621–1624. ↩︎

  7. Utts, J. M. (1999), Seeing Through Statistics (2nd ed.), Belmont, CA: Duxbury Press. ↩︎ ↩︎

  8. Clark, H. H., and Schober, M. F. (1992), “Asking Questions and Influencing Answers,” in Questions About Questions, ed. J. M. Tanur, New York: Russell Sage Foundation, pp. 15–48. ↩︎

  9. Tanur, J. (ed.) (1992), Questions About Questions: Inquiries into the Cognitive Bases of Surveys, New York: Russell Sage Foundation. ↩︎

  10. Plous,S. (1993), The Psychology of Judgment and Decision Making, New York: McGraw Hill. ↩︎

  11. Diaconis, P., and Mosteller, F. (1989), “Methods for Studying Coincidences,”Journal of the American Statistical Association, 84, 853–861. ↩︎

  12. Eddy, D. M. (1982), “Probabilistic Reasoning in Clinical Medicine: Problems and Opportunities,” in Judgment under Uncertainty: Heuristics and Biases, eds. D. Kahneman, P. Slovic, and A. Tversky, Cambridge, UK: Cambridge University Press, chap. 18. ↩︎ ↩︎

  13. Utts, J. M., and Heckard, R. F. (2003), Mind On Statistics (2nd ed.), Belmont, CA: Duxbury Press. ↩︎ ↩︎

  14. Stutts, J. C., Reinfurt, D. W., Staplin, L., Rodgman, E. A. (2001), “The Role of Driver Distraction in Traffic Crashes,” Technical Report; available online at www.aaafoundation.org , May 2001. ↩︎

  15. Magliozzi, T., and Magliozzi, R. (2001),”How AAA’s Foundation for Traf-fic Safety Misused Otherwise Good Data,”online at http://www.cartalk.cars.com/About/Drive-Now/aaa.html↩︎

  16. Goldwitz, A. (1998), “The Davis Enterprise,” March 4, A1. ↩︎