天才一秒记住【狂风中文网】地址:https://www.kfzw.net
上述两种情况下,共有8种可能性,每一种的概率分别列出,如图表11-8所示。
图表11-88种互不相同的可能性
图表11-8的左列(垃圾邮件列)对应图表11-7正中的概率表,右列(正常邮件列)对应图表11-7最下面的概率表。
在这里,请大家进一步确认一个问题:类别的概率0.5也要乘进去。
原因在于,它是异于独立性而存在的。
而这一点是条件概率的特征,具体的相关内容会在第15讲中进行讲解,此处暂且不多作讨论。
11-6从2个信息可以消去不可能的情况
在设定上述概率的前提下,过滤器对邮件进行扫描,通过检查是否附带“链接”
、是否含有“幽会”
一词这两个条件,来计算该邮件为垃圾邮件的概率。
图表11-8中共有8种可能性,而只有最上面的2种有可能是垃圾邮件的。
于是,留下最上面的2个,排除掉下面的6个,结果如图表11-9所示。
图表11-9扫描之后只剩下两种可能性
总之,过滤器所检查的邮件分为两种情况,一种是垃圾邮件(附带链接且含有“幽会”
),一种是正常邮件(附带链接且含有“幽会”
)。
两者的比例关系,也就是图中的概率之比。
因此,接下来通过标准化条件,可以计算出附带链接且含有“幽会”
一词时的后验概率。
(垃圾邮件的后验概率):(正常邮件的后验概率)
=0.5×0.6×0.4:0.5×0.2×0.05
=0.6×0.4:0.2×0.05
=0.24:0.01
=24:1
=2425:125
通过标准化条件运算,在附带链接且含有“幽会”
一词的情况下,(垃圾邮件的后验概率)=2425=0.96
假若在垃圾邮件过滤器上设定一种情况:如果垃圾邮件的后验概率超过0.95,就自动把它移到垃圾箱。
那么,在这种情况下,这封邮件就会被移动到垃圾箱,而不会出现在收件箱中。
在获得以上两条信息的前提下,通过贝叶斯推理的过程,如图表11-10所示。
图表11-10扫描之前与扫描两次之后
如图所示,使用2条信息推算出的结论,比起仅仅使用1条信息来推算,检索出垃圾邮件的概率会更高。
第11讲·小结
1.使用2条信息进行贝叶斯推理的方法与之前基本一致。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!