当前位置 博文首页 > weixin_38753422的博客:小孩都看得懂的 p-value
全文共?2071?字,3?幅图,
预计阅读时间?6?分钟。
本文是「小孩都看得懂」系列的第九篇,本系列的特点是极少公式,没有代码,只有图画,只有故事。内容不长,碎片时间完全可以看完,但我背后付出的心血却不少。喜欢就好!
小孩都看得懂的神经网络
小孩都看得懂的推荐系统
小孩都看得懂的逐步提升
小孩都看得懂的聚类
小孩都看得懂的主成分分析
小孩都看得懂的循环神经网络
小孩都看得懂的 Embedding
小孩都看得懂的熵、交叉熵和 KL 散度
小孩都看得懂的 p-value
0
在统计的世界里经常听到 p-value,那什么是 p-value 呢?查查 Wikipedia 得到:
In?statistical?hypothesis?testing,?the?p-value?is?the?probability?that,?when?the?null?hypothesis?is?true,?the?statistical?summary?(such?as?the?absolute?value?of?the?sample?mean?difference?between?two?groups)?would?be?greater?than?or?equal?to?the?actual?observed?results.
Wikipedia
Well Done, Wikipedia, 这下连大人都彻底不懂 p-value 了。
但希望下面极简的讲解能让小孩懂什么是 p-value。
1
讲背景:丢硬币
随机丢硬币,
看是正面还是反面,
如果硬币的质量是均匀分布,
通常称为公平的硬币 (fair coin),
那么出现正面和反面的概率是 1/2。
2
丢概念:p-value
现在我来丢一个硬币若干次,
你根据结果来判断硬币是否公平。
也就是在下面两种情况选一个
情况 0?:硬币公平
情况 1:硬币不公平
通常情况 0 是没有意外情况发生,
而情况 1 是有意外情况发生。
p-value 就是假设
在情况 0 为真时观测结果发生的概率,
即硬币公平时观测结果发生的概率。
读完上面的句子如果不懂,
看完下节来回来读一遍。
现在,我开始丢硬币了 。。。
3
做试验:p-value
牢记:p-value 就是硬币公平时观测结果发生的概率。?
第一次硬币是反面,p-value 是多少?
次数 | 观测结果 | p-value |
1 | 反面 | 50% |
你觉得硬币不公平吗?
绝壁不会啊!
当硬币公平时,
丢 1 次出现反面有 50% 概率呢。
第二次硬币又是反面,?p-value 是多少?
次数 | 观测结果 | p-value |
1 | 反面 | 50% |
2 | 反面 | 25% |
你觉得硬币不公平吗?
额,不会啊
当硬币公平时,
丢 2 次出现反面有 25% 概率呢。
(50%)^2 = 25%
第三次硬币又是反面, p-value 是多少?
次数 | 观测结果 | p-value |
1 | 反面 | 50% |
2 | 反面 | 25% |
3 | 反面 | 12.5% |
你觉得硬币不公平吗?
额,我想想。。。
当硬币公平时,
丢?3?次出现反面有 12.5% 概率。
(50%)^3?= 12.5%
第四次硬币又是反面! p-value 是多少?
次数 | 观测结果 | p-value |
1 | 反面 | 50% |
2 | 反面 | 25% |
3 | 反面 | 12.5% |
4 | 反面 | 6.25% |
你觉得硬币不公平吗?
额额额(挠挠头)
你心理开始变化了吧
当硬币公平时,
丢?4?次出现反面只有 6.25% 概率。
(50%)^4?= 6.25%
第五次硬币又是反面!!! p-value 是多少?
次数 | 观测结果 | p-value |
1 | 反面 | 50% |
2 | 反面 | 25% |
3 | 反面 | 12.5% |
4 | 反面 | 6.25% |
5 | 反面 | 3.125% |
你觉得硬币不公平吗?
是的!不公平!
你突然开始非常确定了,
当硬币公平时,
丢?5?次出现反面只有 3.125% 概率。
(50%)^5?= 3.125%
恭喜你,答对了,我就是用了一个两边都是反面的硬币来做试验的。
4
复盘一下
回顾:p-value 就是硬币公平时观测结果发生的概率。?
当丢了五次都是反面,
如果硬币公平,
计算出来的 p-value 是 3.125%,
非常不可能在硬币公平时随机发生!
因此我们改变原先的假设,
认为硬币公平是不成立,
进而认为硬币不公平,
这很科学!
让我们产生了改变原假设想法是什么?
是一个很小 p-value 值。
跟着我捋一捋,
在上面丢硬币的过程中,
你是不是在某个时点想大叫一声 WOW,
大概就是连续 5 次看到反面的时候,
你会觉得硬币公平非常可笑,
因而推翻了它。
要推翻硬币公平的假设
你还需要一个基准,
统计上叫做显著性水平,
我把它叫做“搞笑阈值”
当 p-value 还小于这个搞笑阈值,
那原假设明显就搞笑了嘛,
你还像个傻冒一样不推翻它?
总结
来类比一下
小孩听得懂的东西 | 严谨统计的东西 |
情况 0 | 无效假设 |
情况 1 | 备择假设 |
搞笑阈值 | 显著性水平 |
判断硬币是否公平 | 假设检验 |
在现实中,你永远不可能?100% 的确定假设的真假,因为假设检验的总体参数(population parameter),你不可能在总体上做试验,只可能在样本上做试验,计算样本统计(sample statistics)来判断假设的真假。
就像丢硬币试验一样,我只要不给你看我的硬币,你就不可能 100% 确认这是个不公平的硬币。但是通过做试验(收集一系列样本观测结果),计算 p-value,当小于事先设定好足够小的“搞笑阈值”的时候,你就有充足信心说硬币是不公平的,诚然,你有可能(possible)会错,但不太可能(not probable)会错。
下帖再来篇
《小孩都看得懂的假设检验》
cs