掷硬币是统计学中最常见的一个示例,但是想要理解其中的实质问题也是需要花费很多功夫,并不是一蹴而就的. 在掷硬币的问题上隐含了一个总体和样本的问题,要想清楚这个问题.
掷硬币时什么情况下可以获得50-50的比例

我们都有一个已知看法就是扔一枚硬币,获得正反面机会各是50%.
这个50%是在什么情况下获得的?要抛多少次硬币才能获得这个结果?如果扔10000次硬币有没有机会全部都是正面?扔的硬币到底有没有被作假? 提出了这些问题,怎么解决,解决的步骤是什么?
实际中的试验
如果扔一次硬币算一次判断正反面的验证,一个硬币从铸造出来可以进行无数次实验,实验的次数是无穷大的,这样的总体有个名字叫想象总体。在这种情况下硬币正反面机会是50-50的。但实际上我们不可能做完这个实验,只能想象实验的情况,通过试验来推测总体的情况如何。在总体状况未知的情况下通过样本推测总体的情况就是推断性统计,机器学习中基本原理就是推断性统计.所以实际中掷硬币只是从这个整体中进行的抽样操作,不管抛了多少次,正反面都不会是完美的50-50,因总体的数量是无穷的。但是试验的次数越多越接近50-50这个推论.因此试验的次数是推断统计的关键,试验次数太少会以偏概全,试验次数也并不是越多越好,在一些复杂的试验中增加次数会随机引入错误. 有一个统计学家被关进了监狱,无聊中做了上万次的试验,发现正反面接近50-50.假设我们有一台可以不休止工作的抛硬币机器,让他做一百万次试验, 可能的结果更接近50-50的结果,但是也有可能得到一个让人怀疑的结果,由于每次抛硬币具有随机性,要么是正面,要么是反面.但是第一次的结果不会影响第二次的结果,每次抛硬币都是独立的试验,所以在100万次试验中出现99万次正面,1万次反面的结果是有可能的.如果武断的说这种结果不可能出现的话,说明对随机性还不是太理解. 由于一枚硬币的试验机会是无穷大的, 在漫长的时间中有可能出现这种让人怀疑的情况,也许下一次的100万试验中就会出现这个结果, 这正是随机性的体现.
连续扔10000次硬币都是正面说明什么问题?
开始这个话题之前请在看一遍扔100万次硬币的问题陈述.
统计学中的总体实际是对一个实验对象的描述,说明了试验对象的情况. 对于类似硬币试验无法获取总体真实情况的,可以构造一个试验总体来进行试验
怎么根据10000次扔硬币的试验来判断硬币是否有问题.
问题: 一枚硬币是否被做了手脚,扔硬币正反面的结果不会是50-50,正面的结果会大量出现?
试验: 我们扔10000次硬币,根据正反面的比例的试验结果来判断硬币是否有问题.
结果: 出现了连续一万次正面 (比较夸张的结果)
有了问题,试验和结果.怎么对问题进行分析. 之前我们说总体是对试验对象的一个描述, 在这个试验中硬币没有做手脚是一种描述,硬币没有做手脚是另一种描述. 问题演化为先面的描述:扔了一万次硬币,全是正面的结果, 推断这个硬币是来自正常的总体还是作假的总体.
所以接下来看看使用两种总体怎么讨论
-
正常的硬币: 在无穷多次的实验中,出现连续10000次正面尽管概率上说太小,但是仍然是有出现的机会。这里指的是无限多次实验的情况下,对于这个无限多次,需要你把认知的数量级进一步扩大。
-
作弊的硬币: 出现连续10000次正面的机会大大增加,
推断结果: 根据连续一万次扔硬币都是正面的结果,我们可以推断这枚硬币绝大可能被做了手脚,倾向于出现正面的结果. 但是即使硬币正常,也有连续10000次正面的机会.
更完善的措施,我们可以进行10个10000次的试验,这样可以减小随机出现的问题,但是这样做也只能尽可能减少正常硬币出现连续10000次正面的机会,不能完全杜绝.
总结
样本和总体的关系是推断统计学的关键,就是要回答一个问题:样本到底能不能代表一个总体。
很多人统计学的很难受就是卡在这里了。遇到一个推论统计学问题,能不能分清楚总体和样本是解决问题的关键。
统计学中有两种方法一种就是这里的推论统计学,还有一个是描述统计学,两者的关系很容易混淆,术语和符号也不同,实质他们是完全不同的思想。一定要留心,如果是写科研论文,统计学评审会提出符号使用有误,很多人根本不知道怎么去修改这个问题。对于专业的统计评审在推论统计时用了描述统计的符号是不能接受的。
在推断统计中的流程是:1问题,2设计实验,3获取结果,4对结果进行分析. 在学习过程中可以列一个表把这些问题都列出来,看看自己的流程卡在那个地方了.
反复思考一个问题,实验的样本到底是从哪个总体获得的?是从正常的硬币获取的,还是从做了弊的硬币获取的?