天才一秒记住【狂风中文网】地址:https://www.kfzw.net
第11讲掌握多条信息时的推理②以垃圾邮件过滤器为例
banner"
>
11-1垃圾邮件过滤器以贝叶斯推理为基础
在进行统计推算与贝叶斯推理等概率推算时,通常需要两条以上的信息。
并且,信息数量越多,推算出的结果可信度越高。
后面的三讲,会讲解如何利用多条信息来进行推算的问题,而其中的要点则是上一讲中提到的“概率的乘法公式”
。
在这一讲,会讲解如何利用两条信息来计算出后验概率。
本讲主要探讨垃圾邮件过滤器的问题。
所谓的垃圾邮件,指的就是一些不良商家通过网络随意发送的广告邮件。
而垃圾邮件过滤器的功能之一就是自动判别垃圾邮件,并把它归入“垃圾邮件”
的分类中。
事实上,贝叶斯推理的实际应用中,最广为人知的正是这种垃圾邮件过滤器。
而目前,垃圾邮件过滤器已经被引进更为广泛的网络邮件服务当中。
读者们在使用该服务之后,都会为它在分类判断方面的准确性而惊叹不已,而这一切都要归功于贝叶斯推理。
11-2在过滤器上设置“先验概率”
和前面的操作步骤相同,第一步是设定事前类别,并在获得一条信息之后,计算出后验概率。
在这里我们要做的,并不是“自己去判断收到的邮件是否为垃圾邮件”
,而是为大家讲解“电脑会对所收到的邮件做出机械判断”
的原理。
首先,电脑在对收到的邮件进行扫描之前,会为每个类别分配“这封邮件是垃圾邮件还是正常邮件”
先验概率。
在这里,利用“理由不充分原理”
(见3-2),使双方各占0.5的概率。
这就意味着,对于接收到的邮件,过滤器会做出“垃圾邮件的概率是0.5,正常邮件的概率也是0.5”
的判断。
而此时如果有可信度更高的概率,也可以将其设定为先验概率,如图表11-1所示。
图表11-1理由不充分原理的先验概率
11-3扫描字句与条件概率的设定
接下来要做的是,设定一些在垃圾邮件里常见的字句及特征。
但需要注意的是,“贴有其他网页的URL链接”
这一特征,是电脑判断一封邮件疑似为垃圾邮件的关键点。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!