第11讲掌握多条信息时的推理② 以垃圾邮件过滤器为例（第1页）

天才一秒记住【狂风中文网】地址：https://www.kfzw.net

第11讲掌握多条信息时的推理②以垃圾邮件过滤器为例

banner"

11-1垃圾邮件过滤器以贝叶斯推理为基础

在进行统计推算与贝叶斯推理等概率推算时，通常需要两条以上的信息。

并且，信息数量越多，推算出的结果可信度越高。

后面的三讲，会讲解如何利用多条信息来进行推算的问题，而其中的要点则是上一讲中提到的“概率的乘法公式”

。

在这一讲，会讲解如何利用两条信息来计算出后验概率。

本讲主要探讨垃圾邮件过滤器的问题。

所谓的垃圾邮件，指的就是一些不良商家通过网络随意发送的广告邮件。

而垃圾邮件过滤器的功能之一就是自动判别垃圾邮件，并把它归入“垃圾邮件”

的分类中。

事实上，贝叶斯推理的实际应用中，最广为人知的正是这种垃圾邮件过滤器。

而目前，垃圾邮件过滤器已经被引进更为广泛的网络邮件服务当中。

读者们在使用该服务之后，都会为它在分类判断方面的准确性而惊叹不已，而这一切都要归功于贝叶斯推理。

11-2在过滤器上设置“先验概率”

和前面的操作步骤相同，第一步是设定事前类别，并在获得一条信息之后，计算出后验概率。

在这里我们要做的，并不是“自己去判断收到的邮件是否为垃圾邮件”

，而是为大家讲解“电脑会对所收到的邮件做出机械判断”

的原理。

首先，电脑在对收到的邮件进行扫描之前，会为每个类别分配“这封邮件是垃圾邮件还是正常邮件”

先验概率。

在这里，利用“理由不充分原理”

（见3-2），使双方各占0.5的概率。

这就意味着，对于接收到的邮件，过滤器会做出“垃圾邮件的概率是0.5，正常邮件的概率也是0.5”

的判断。

而此时如果有可信度更高的概率，也可以将其设定为先验概率，如图表11-1所示。

图表11-1理由不充分原理的先验概率

11-3扫描字句与条件概率的设定

接下来要做的是，设定一些在垃圾邮件里常见的字句及特征。

但需要注意的是，“贴有其他网页的URL链接”

这一特征，是电脑判断一封邮件疑似为垃圾邮件的关键点。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第11讲 掌握多条信息时的推理② 以垃圾邮件过滤器为例（第1页）