在大数据面前,统计学有何价值

频道:生活应用 日期: 浏览:18

应用例子统计学生活数据_应用统计学生活中的例子_统计学应用生活例子

统计学对大数据的意义

我很高兴有这样的机会。我可以在这里与您沟通有关统计和大数据,并与您分享一些意见。

在谈论大数据之前,让我们首先看看什么是数据。长期以来,每个人对数据的理解可能只在阿拉伯数字的层面上。近年来,每个人都开始谈论大数据。结果,有些人开始怀疑:这些大数据与我们之前提到的数据有什么关系?

阿拉伯数字数据吗?当然是数据。是大数据吗?当然,它仍然是数据。但是,现在我们对数据的理解要广泛得多。我们可以考虑可以将可以数字化为数据的任何信息载体。例如,我们现在可以量化与我们接触的文本,包括我们通常看到的一些文本。我们看到的图片,视频和音频现在可以量化。包括阿拉伯数字,文本,图片,视频和音频,我们都称它们为数据。我们现在了解的数据在源头方面更为广泛,并且在类型方面更为复杂。不同来源和复杂数据类型的这些数据合并在一起并达到一定量,可以将其视为大数据。

现在让我们谈谈统计数据。什么是统计信息?首先,从纪律定位的角度来看,统计数据已被列为一级学科。这与数学,法律等相同。大不列颠百科全书对统计有一个定义,称这是收集和分析数据的科学和艺术。该定义提到统计是一门易于理解的科学。那为什么统计是艺术呢?这个问题与我今天回答的问题非常相关。顺便说一句,美国许多大学的统计系不在理科学院,而是在艺术学院下。

今天,我将主要回答一个问题:在大数据时代,我们需要基于抽样的统计数据吗?

有人认为,计算机科学现在已经非常发达,可以收集大量数据。出于特定的研究目的kaiyun全站网页版登录,我们现在可以通过计算机技术收集与特定研究目的有关的所有数据。如今,基于抽样的统计数据不太重要,甚至不需要。是真的吗?

统计是收集数据的艺术

由于统计被认为是收集和分析数据的科学和艺术。我们暂时不要谈论科学,首先让我们看看为什么统计被认为是收集数据的艺术。

让我们看第一种情况。此案旨在调查15个国家的公民的诚实。调查人员想知道哪些国家公民最倾向于撒谎,哪些国家的公民是诚实的。如果您直接询问正在调查的人:“你曾经说谎吗?”十分之八,您将无法问真正的答案。如果调查员以前撒谎,他不在乎告诉这个谎言太多。调查人员可能不愿为不同动机提供真正的答案。那么,您如何获得调查数据?这显然不容易通过计算机技术或通过某些Crawler软件收集适合研究目的的数据。

如何使用统计方法收集数据?这需要统计的智慧。研究人员设计了两组实验。

调查人员首先发现来自每个国家的1,000人参加测试。共有15个国家发现15,000人。很难找到来自不同国家的许多人面对面调查,因此调查人员通过互联网发现了这15个国家的15,000人。两组实验均在互联网上进行。

在第一组中,他们首先进行了测试,并要求被告在家中扔硬币。硬币具有正面和负面。受访者预先规定,被告应在扔硬币后告诉我结果。如果硬币面对面,我会用十元奖励您。如果反向面对面,我不会给您奖励。这项调查不需要提供证据表明您要扔硬币,而只会告诉研究人员抛弃硬币的结果。这意味着只有他知道正在调查的人是否有谎言。

调查人员实际上提到了这个最终结果。因为,每个国家的1,000人参加了考试。在正常情况下,1,000枚硬币折腾的结果应大约是面对的500倍。在一个在某个国家参加实验的1000人中,如果有900人声称他们扔了的硬币正在面对,甚至有1000人声称他们投掷的硬币正在面对。然后,有人在撒谎。这是第一组实验。

第一组实验很有价值,但不一定会完全反映实际情况,因此研究人员有第二组实验。

第二组实验要求受访者回答五个问题。在回答这五个问题之前,受访者需要保证他不能咨询任何信息来回答问题或寻求任何帮助。也就是说,在阅读了这五个问题之后,受访者需要立即给出答案。调查人员保证,如果正确回答了这五个问题中的四个以上,则被告将获得十元的奖励。如果正确回答三个或更少,则不会有任何回报。

在这五个问题中,其中三个特别简单,类似于1+1等问题等于几个问题。其他两个问题非常罕见。如果受访者不审查信息或咨询其他信息,则基本上不太可能回答。因此,如果调查员正确地回答了这两个难题,则可能表明他违反了他先前“不检查信息以寻求帮助”的承诺,这可以推断他在这件事上是不诚实的。

然后,统计学家通过这两组实验结果互相验证。两组数据收集过程都易于反映收集数据的统计智慧。

因此,即使在大数据时代,也不意味着使用计算机和爬行技术,我们也可以收集适合研究目的的所有数据。统计是收集数据的一种艺术。为特定的研究目的设计非常漂亮的数据收集计划是收集数据的非常艺术的过程。

让我们举一个例子。这是MIT最近在美国完成的实验。它大约在2018年左右完成,并宣布了实验结果。目的是了解每个人当前的婚姻概念。邀请100人参加封闭场所的实验。参加实验时,每个人都会被标记为一个数字。男人的人数是奇怪的一,三,五,七,九,女人甚至是两个,四个,六个,八个等等。参加实验的100人不知道他们的人数,也不知道有多少人参加了实验。换句话说,他们不知道有50名男性和50名女性参加了这项实验。受访者只知道许多人参加了这项实验。

在这里,统计人员采取了一些小技巧,那就是在受访者进入门时将数字张贴在受访者的背上。受访者知道他有一个数字,但他不知道他的电话号码是多少,但是他可以看到别人背上的数字。实验规则说,允许100个人中的任何两个人都可以交谈,只是他们不能告诉另一方,他的背上的数字是什么,可以讨论其他主题。

然后,实验者将100人带到一个很小的房间,并宣布他们将给所有人5分钟。在这5分钟内,每个人都会配对,每个人只能与一种异性相匹配。 5分钟后,如果配对成功,则将两个人背后的数字添加并乘以十,这是他们可以获得的奖励。换句话说,如果100名的女人找到了数字99的男人,那么两者可以获得(100+99)×10的奖金,即$ 1,990,这已经很大。但是,如果您是一个拥有2号的女人,并且您找到了1号男人,那么您只能得到(1+2)×10,也就是说,30美元,不一定足以让您和此奖金一起用餐。但是5分钟后,如果配对不成功,您甚至都不会得到一分钱。因此,参与者必须在非常小而拥挤的空间中找到愿意在5分钟内尽快与他们配对的人。在此过程中,您应该使奖金量尽可能大。

实验者故意在一个非常拥挤的房间里安排100人的原因是考虑到,我们应该让每个人都能很快看到某些人的人数,另一方面,我们可以确保一个人看不到每个人的人数。就人群而言,绝对不可见一些数字。

实验已经开始。

有些人很快发现他们连续三到四次与其他人配对,每个人都拒绝了他。这很可能很可能表明您的背上的数字不够大,其他人也不感兴趣。因此,有人采用了响应策略。他告诉其他人,如果您愿意与我配对,我愿意给您所有的奖金。无论如何,我的电话号码不大,所以我不需要我的钱。有人还说,只要您这次成功与我搭配,我们外出后,我就会对您吃饭。

也有一些人。尽管他不知道背上的数字,但他发现很多人来找他,所以他很快意识到他的背上的数字可能很大,但他不知道它有多大。并使两个人尽可能多地组合数字。因此,他很快拒绝了他面前看到数字的人群,因为他自然认为接下来会有更多数字,但他不知道最大的数字是什么。同时,他必须在5分钟内迅速决定与谁配对。

该实验的结果是,男性99号与女性数字100并未成功配对。有100名的女性发现了一个有80的男人。中间有数字的男人通常与另一个与他们自己几乎相同的人匹配。这个结果与传统的中国想法非常一致,即对对决。

现在让我们看看这个实验的结果。它基本上与中国男女之间婚姻概念的现实相似。例如,由于实验者的数量很少,因此他给另一方提供了奖金,甚至承诺邀请另一方参加晚餐以实现成功的对决。实际上,这类似于“我的个人状况更糟,但我的父母同意在我们结婚后给我们房子。”此外,我们还发现,一些最好的男人和女人周围有许多求婚者,但他们还没有找到“最好的比赛”。

数据收集过程也非常漂亮。

数据越多,越好

统计本身就是收集数据的科学,但是还有更多数据,越好吗?很难说。

历史上有一个非常著名的例子。大约500年前,有一位名叫Tycho的丹麦天文学家,他从当时的丹麦国王那里索要钱,并建立了一个实验室。 Tygo每天都观察每个星球的运动轨迹,并每天记录下来。因此,Tycho观察到了20年,并记录了大量数据。但是,数据太多了。 Tycho花费了大量时间和精力来分析这些数据,但没有发现规则。

目前,一个名叫开普勒的人出现了。开普勒认为Tycho每天都会观察到,每个星球每年将在365天内拥有365个数据。这样,在20年内观察记录积累后,将有太多数据进行分析和处理。此外,当时的数据分析只能依靠手动计算,而处理工作量太大了。因此,开普勒说,您每年只能给我一个数据吗?例如,您只能告诉我每年1月1日地球在哪里,土星在哪里,太阳在哪里等。经过20年的观察数据筛选,每个星球只有20个数据。开普勒知道地球将每365天返回一次相同的位置,然后他固定了地球的位置,然后分析了其他行星和地球的相对位置。开普勒通过固定地球的位置并分析了其他行星位置的数据,成功获得了其他行星的轨道。之后,开普勒发现,如果地球的位置保持不变,那么在绘制了其他行星的20年轨迹之后,这些行星都会圆周向旋转。从此,开普勒发现了行星运动定律。

从这个著名的天文学案例中,我们可以看到过多的数据可能会导致大量信息,这将增加找到法律的困难。因此,通过科学方法简化了数据。

在这方面有很多情况。例如,美国总统富兰克林·罗斯福(Franklin Roosevelt)。他是美国历史上唯一连任四个任期的总统。 1932年,他第一次担任总统,当时美国和许多国家遭受经济危机,罗斯福承受着巨大的压力。因此,当罗斯福想在1936年竞选他的第二任总统时,美国许多人预测罗斯福将很难连任。那个时候,罗斯福的主要竞选对手是兰登。当时,两个机构正在预测总统大选的结果。其中之一是杂志文学摘要,当时是一本非常有影响力的出版物,因为该杂志先前对总统选举结果的预测成功了。到1936年美国总统大选时,文献消化进行了一项重大调查,调查了240万人。具体的方法是在杂志上向总统大选提出问卷,然后收集反馈。实际上,当时有超过240万人进行了调查,但人数更多,但最终有效的问卷是240万。基于这一发现,文学文摘宣布,他们预测兰登将通过击败罗斯福赢得选举。

确切地说,当时有一个机构,一个叫盖洛普的年轻人。他的预测结果与文献消化的预测恰恰相反。起初,盖洛普(Gallup)进行了此类调查,因为他的母亲正在竞选众议院。他正在帮助母亲,所以他对较小的团体进行了一项调查,没有资金很少。然后,调查结果非常成功kaiyun全站登录网页入口,他的母亲成为了众议院。接下来,他想调查谁将赢得1936年大选,罗斯福或兰登。但是他不像文学文摘那样丰富,所以他只对5,000人进行了调查。根据这5,000人的调查结果,盖洛普预测了罗斯福将当选。

结果,罗斯福确实再次当选为总统,盖洛普的预测获胜。

选举结果问世后,它对文学文摘杂志的声誉产生了巨大影响:毕竟,文学摘要对240万人进行了调查,但最终发布了错误的预测,而盖洛普只调查了5,000人,但发布的预测是正确的。结果,由于这一事件,文学摘要后来关闭。那个年轻人盖洛普(Gallup)成立了一家投票公司,该公司现在是盖洛普咨询公司。

这是问题的结果。那么,为什么对5,000人进行调查的预测比调查的240万人的结果更准确?让我们不要谈论大量数据,例如240万。这将导致量表提高后计算效率的降低,我们不会提到这种大规模数据收集将导致高成本。基本原因是文学文摘通过问卷调查进行了杂志进行调查。由于问卷是在一开始就在杂志上发行的kaiyun.ccm,因此文学文摘收集的240万个有效问卷实际上是订阅该期刊的用户。那么,当时什么样的家庭会订阅此类杂志?一般而言,他们是来自相对良好家庭的家庭,因此,尽管文学摘要声称接受了多达240万人的调查,但其调查的主要群体是当时美国相对富裕的人。该调查实际上没有涵盖穷人的意见。

数据量不一定意味着准确性。只有当收集的数据具有良好的质量和代表性时,才有可能分析准确的结果。

统计是一种分析数据的艺术

上面给出了一些示例,以提醒我们,我们需要设计该计划以谨慎地收集数据。收集数据后,我们仍然需要进行数据分析。根据先前的英国百科全书,统计数据也是分析数据的艺术。

在数据分析方面,我只会在这里谈论两个基本概念:相关性和因果关系。为什么要谈论这两个概念?这是因为人们经常将这两个概念混淆,并且经常错误地将相关性视为原因和影响。在许多科学研究和政策问题评估中,我们更关心因果关系。但是,当我们看到某种形式的相关性时,我们经常错误地认为这是我们追求的因果关系。

例如,在中世纪欧洲,许多人认为虱子有助于人们的健康。这是因为当时人们发现生病的人很少有虱子,而健康的人则身上有虱子。这是长期观察积累的经验。在中世纪的欧洲,人们很长一段时间以这种经验提出了这种因果推论:这个人的身体有虱子,所以他身体健康,而且那个人对自己的身体没有虱子,这意味着他不健康。

当时,人们确实观察到虱子是否存在以及该人是否健康,但是这是一种因果关系吗?使用温度计,人们发现这不是真正的因果关系:由于虱子对人体温度非常敏感,因此他们只能在很小的温度范围内生存。一旦人体生病,通常会引起发烧。一旦人体发烧并且温度变化,虱子就无法在发烧过程中适应热量,因此它们逃跑了。如果我们只保持健康与否和虱子之间的关系,那实际上只是一个相关性,而不是因果关系。例如,有许多类似的例子,因为我们看到每年冰淇淋的销售量增加,各个地方不幸的溺水数量也在增加。那么,这两件事是否形成因果关系?常识告诉我们,当然不是。实际上,这是因为每年温度升高后,可能会游泳更多的人,溺水死亡人数将相应增加。而且由于温度的升高,冰淇淋的销售也将增加。

换句话说,如果我们观察到一个因素有所改变,另一个因素也会随之变化,它们之间可能存在相关性,但是这种相关性并不意味着这两个因素构成了因果关系。

如何判断因果关系?这要求我们非常谨慎,并在艺术上进行数据分析。我们最终将返回统计数据。

在这里,让我们提出一个历史疾病病例,即脊髓灰质炎,即脊髓灰质炎。现在,我们看到脊髓灰质炎病例较少,因为现在有相应的疫苗。从历史上看,脊髓灰质炎曾经是一种非常可怕的疾病。

在1950年代,美国一所大学的一名实验室对该疾病进行了疫苗,证明它可以在实验室条件下产生有效的抗体。但是,如果将这种疫苗应用于现实生活中的大规模实验,他们不知道该疫苗是否仍然有效。因此,当时,美国政府决定进行一项实验,该实验大约是在1954年。由于小儿麻痹症患者当时主要是儿童,所以当时的实验人群被指定为一年级,二年级和三年级的学生。如何进行实验以真正解释疫苗是否有效?为了确保统计结果最终反映出真正的因果关系,当时提出了五个实验计划。

第一组计划是,由于1953年之前没有这样的疫苗,因此从1954年开始接种了一年级,二和三年级的所有小学生。最后,让我们看看1954年的发病率是否与1953年的发病率是否不同。该计划是解决方案,但是由于上几年的肺活物有很大的问题。例如,在1951年,美国可能有30,000名脊髓灰质炎患者,1952年,1953年,它可能缩小到不到40,000。小儿麻痹症的发病率每年都大大波动。如果实验结果在30,000至40,000之间,您如何确定该结果是否随机变化或疫苗是否有效?

第二个计划建议根据该地区完成。例如,在纽约,所有1、2和3年级的小学生都接种疫苗,而芝加哥的所有小学生均未接种疫苗。然后,我们将计算纽约和芝加哥小儿麻痹症的发病率。该计划后来发现了。由于脊髓灰质炎本身是一种传染病,因此该疾病在一个地区可能很普遍,而另一个地区可能不普遍。然后,这两个区域的数据似乎有所不同,但这不是疫苗的效果,也不可比。

因此有人提出了第三个计划。因为没有人知道收到这种疫苗接种时是否存在副作用,因此存在某些风险。因此,该计划提出,接种疫苗的孩子的父母自己选择。一些父母选择为孩子接种疫苗,而另一些父母则不选择接种疫苗,因此在同一组儿童中会出现不同的比较。但是这样做有问题。因为当时人们发现脊髓灰质炎患者通常来自拥有相对良好家庭的家庭。这是因为那些家庭经济状况不佳的家庭由于生活条件差和卫生状况差而可能很早就暴露于脊髓灰质炎病毒,甚至可能在刚出生时会暴露于脊髓灰质炎病毒。但是,新生婴儿具有产妇免疫。婴儿免疫,婴儿在暴露于该病毒后可以产生抗体,但不会生病。当时的这种数据情况已经显示出这种现象。如果采用自愿疫苗接种,那些财务状况更好的家庭通常愿意让孩子接种疫苗,而那些财务状况不佳的家庭也知道自己的班级感染率略低,因此他们可能不愿意接种疫苗。这会导致干扰实验结果,您无法判断疫苗是有效的还是由经济原因引起的不同结果。

然后是第四个计划。有些人提出,只有允许二年级学生接种疫苗,而一年级和三年级学生未接种疫苗。然后比较未接种疫苗的学生和没有接种的学生之间的差异,看看他们的发病率是否有差异。该计划是由小儿麻痹症预防和控制委员会提出的。该计划也不起作用。首先,它无法避免由于疫苗接种儿童家族中富人与穷人之间差距而引起的疾病可能性的差异。其次,脊髓灰质炎是一种传染病,人群的年龄会影响这种感染。如果一年级,两分和三年级的学生年龄水平可能导致每个年级学生的可能性差异。此外,该计划还有第三个主要缺陷,也就是说,它可能会为医生形成心理诱导。如果实施了该计划,医生将知道,第一年和三年级的学生未接种疫苗,一些二年级学生已接种疫苗。当时的脊髓灰质炎诊断并不容易。如果医生已经知道了疫苗接种计划,并且事先知道疫苗在实验室阶段有效,那么当医生面对的一年级学生(一旦无法确认该疾病),医生很可能会直接诊断出基于两种先进认知的polio的学生,这是对“一年级学生”的两种先进认知,而“未接种疫苗”,“疫苗”是有效的。此外,该差异化治疗计划还将影响接种疫苗的学生自己的心理。

当时有第五个计划,即最终实施并采用调查结果的计划。具体来说,在获得学生父母的同意后,我仍然会告诉父母:即使您同意接受疫苗接种,我为您的孩子疫苗接种的东西可能不是疫苗,而是看起来与疫苗完全相同的安慰剂,没有副作用或任何作用。因为该安慰剂看起来与疫苗相同,所以医生和学生不知道他们是接种疫苗还是普通安慰剂,但是疫苗提供者知道它的每种药物都有数量,因此疫苗提供者知道哪些安慰剂是哪个安慰剂,哪些是疫苗。这样,实验室就可以随机疫苗接种,无论家庭是好还是坏,疫苗接种都是随机的。同时,医生不知道哪些孩子已接种疫苗。这避免了各种干扰,例如年龄和经济状况,并有助于确定脊髓灰质炎与疫苗之间的真正因果关系。

1954年,大约有740,000名小学生参加了这项实验。最终的实验结果是,如果接种疫苗,患有脊髓灰质炎的儿童的可能性约为100,000分之28,如果接种疫苗,则患有脊髓灰质炎的孩子的可能性约为100,000中的77个,这是两者之间差异的两倍以上。经过各种努力,在美国批准了脊髓灰质炎疫苗。

许多科学结论和政策评估依赖于因果分析而不是相关分析。统计数据可以帮助我们证明我们需要的因果关系。很多时候,真正的因果关系不能简单地基于相关关系。仍然有许多科学问题我们仍然需要发现真正的因果关系。这是统计数据可以提供数据收集和分析解决方案的地方,也是统计的魅力。

网友留言(0)

评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。