《机器学习实战》读书笔记5:朴素贝叶斯分类器的原理

news/2025/2/26 6:36:36

贝叶斯定理

我们知道:

P(AB)=P(A|B)×P(B)=P(B|A)×P(A)

所以有:
P(A|B)=P(B|A)×P(A)P(B)

这就是贝叶斯定理。


贝叶斯分类器的原理

假如我们要为一个疾病诊断系统构建一个贝叶斯分类器。首先,我们有如下训练集:

职业症状疾病
矿工咳嗽肺炎
矿工头痛感冒
护士咳嗽肺结核
护士头痛肺炎
矿工咽痛肺炎
护士咽痛感冒


下面来了一个咽痛护士,我们要确定她患了什么疾病,这里就要用到贝叶斯定理。
该护士感冒的概率为:

P(|,)=P(,|)×P()P(,)=P(|)×P(|)×P()P()×P()=0.5×0.5×0.330.33×0.5=0.5

同理,该护士 肺炎的概率为:
P(|,)=P(,|)×P()P(,)=P(|)×P(|)×P()P()×P()=0.33×0.33×0.50.33×0.5=0.33

该护士 肺结核的概率为:
P(|,)=P(,|)×P()P(,)=P(|)×P(|)×P()P()×P()=1×0×1/60.33×0.5=0

所以,由上可知, 咽痛的护士,最可能是 感冒了。虽然上面的例子是瞎掰的,训练集数量太少,但是也能说明贝叶斯分类器的工作原理,即 可能性最大的那个分类就作为输入特征向量的分类


朴素贝叶斯

朴素(naive)贝叶斯有两个假设:

  • 各个特征之间是相互独立的,即一个特征出现与否,不影响另一个特征是否出现。例如自然语言中 “ I am a student. ”,I 的出现肯定会影响 am 的出现,即主语的出现肯定会影响谓语的出现。但是朴素贝叶斯假设它们之间都没有联系,即在统计意义上是独立的。
  • 各个特征同等重要,其实这个假设也有问题,在文档分类中,很多情况下,某些词比其他词更加重要。

虽然上面两个假设都不太符合实际,但是在实际情况中朴素贝叶斯分类器的效果却还是非常不错的,而且这两个假设使得程序代码逻辑清晰且简单。


http://www.niftyadmin.cn/n/712810.html

相关文章

个人版整理APP测试流程

2016.1.5 我的笔记 一 、APP测试基本流程 1.1 测试周期 测试周期可按项目的开发周期来确定测试时间,一般测试时间为两三周(即15个工作日),根据项目情况以及版本质量可适当缩短或延长测试时间。正式测试前先向主管确认项目排期。 1…

ipsec协议_IPSec在防火墙USG5500上的运用

IPSec(Internet Protocol Security)是一整套的解决方案,一个协议包。IPsec主要由以下协议组成:一、认证头(AH),为IP数据报提供无连接数据完整性、消息认证以及防重放攻击保护;二、封装安全载荷(ESP),提供机密性、数据源…

荔枝集团战队斩获 2023 Amazon DeepRacer自动驾驶赛车企业总决赛冠军

6月27日,2023 Amazon DeepRacer自动驾驶赛车企业总决赛在上海决出了最终结果,荔枝集团“状元红”战队与Cisco、德勤管理咨询、北京辛诺创新、神州泰岳、敦煌网等12支队伍的竞逐中,在两轮比赛中成绩遥遥领先,最终斩获桂冠。而今年年…

微服务配置中心是干啥的_微服务之配置中心ConfigKeeper

在微服务架构中,配置中心是必不可少的基础服务。ConfigKeeper已开源,本文将深度分析配置中心的核心内容,错过「Spring Cloud中国社区北京沙龙-2018.10.28 」的同学将从本篇文章中收获现场的分享内容。背景微服务容器架构后,为了方…

Myeclipse10.0版下载

链接:http://pan.baidu.com/s/1kVl1kSf 密码:p6yr 主界面框图 转载于:https://www.cnblogs.com/veis/p/6938457.html

CodeForces 445A-DZY Loves Chessboard(字符串处理)

题目描述: DZY loves chessboard, and he enjoys playing with it. He has a chessboard of n n n rows and m m m columns. Some cells of the chessboard are bad, others are good. For every good cell, DZY wants to put a chessman on it. Each chessman is e…

java清空字符串_Java——JVM篇干货系列(一)

1 基本概念:JVM 是可运行 Java 代码的假想计算机 ,包括一套字节码指令集、一组寄存器、一个栈、 一个垃圾回收,堆 和 一个存储方法域。JVM 是运行在操作系统之上的,它与硬件没有直接 的交互。2 运行过程:我们都知道 Ja…

《机器学习实战》读书笔记6:朴素贝叶斯源码

下面是经过我注释并添加 docstring 的朴素贝叶斯分类器源码 from numpy import *def loadDataSet(): () -> list of lists, listReturn a list of lists which are some posts in a forum anda list containing the corresponding class of each post>>> postingL…