狂风中文网

第11讲 掌握多条信息时的推理② 以垃圾邮件过滤器为例(第1页)

天才一秒记住【狂风中文网】地址:https://www.kfzw.net

第11讲掌握多条信息时的推理②以垃圾邮件过滤器为例

banner"

>

11-1垃圾邮件过滤器以贝叶斯推理为基础

在进行统计推算与贝叶斯推理等概率推算时,通常需要两条以上的信息。

并且,信息数量越多,推算出的结果可信度越高。

后面的三讲,会讲解如何利用多条信息来进行推算的问题,而其中的要点则是上一讲中提到的“概率的乘法公式”

在这一讲,会讲解如何利用两条信息来计算出后验概率。

本讲主要探讨垃圾邮件过滤器的问题。

所谓的垃圾邮件,指的就是一些不良商家通过网络随意发送的广告邮件。

而垃圾邮件过滤器的功能之一就是自动判别垃圾邮件,并把它归入“垃圾邮件”

的分类中。

事实上,贝叶斯推理的实际应用中,最广为人知的正是这种垃圾邮件过滤器。

而目前,垃圾邮件过滤器已经被引进更为广泛的网络邮件服务当中。

读者们在使用该服务之后,都会为它在分类判断方面的准确性而惊叹不已,而这一切都要归功于贝叶斯推理。

11-2在过滤器上设置“先验概率”

和前面的操作步骤相同,第一步是设定事前类别,并在获得一条信息之后,计算出后验概率。

在这里我们要做的,并不是“自己去判断收到的邮件是否为垃圾邮件”

,而是为大家讲解“电脑会对所收到的邮件做出机械判断”

的原理。

首先,电脑在对收到的邮件进行扫描之前,会为每个类别分配“这封邮件是垃圾邮件还是正常邮件”

先验概率。

在这里,利用“理由不充分原理”

(见3-2),使双方各占0.5的概率。

这就意味着,对于接收到的邮件,过滤器会做出“垃圾邮件的概率是0.5,正常邮件的概率也是0.5”

的判断。

而此时如果有可信度更高的概率,也可以将其设定为先验概率,如图表11-1所示。

图表11-1理由不充分原理的先验概率

11-3扫描字句与条件概率的设定

接下来要做的是,设定一些在垃圾邮件里常见的字句及特征。

但需要注意的是,“贴有其他网页的URL链接”

这一特征,是电脑判断一封邮件疑似为垃圾邮件的关键点。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

电影世界交换师火影之穿越万界海贼里的第四天灾重生之仙帝归来西游之太初道君帝国巨星重生之我真没想当渣男楚烈萧诗韵沧元图我哥居然成神了从火影开始的魔封波从苇名城走出的无双剑圣为美好群星献上祝福快穿之炮灰打脸忙护肤网红在古代我真的是绝世高人我在六扇门当差的日子水与火(原名服不服)李白之前世今生我能点化万物锦鲤食神超甜哒都市极品仙尊从亮剑开始的特种战甜溺!京圈大佬诱宠温软小仙女僵尸:我又被九叔挖出来