3.朴素贝叶斯朴素贝叶斯是一种用于分类任务的监督学习算法 。因此 , 它也被称为朴素贝叶斯分类器 。
朴素贝叶斯假设要素彼此独立 , 要素之间没有关联 。但是 , 现实生活中并非如此 。特征不相关的这种天真假设是将该算法称为"天真"的原因 。
朴素贝叶斯算法的直觉是贝叶斯定理:

文章插图
p(A | B):给定事件B发生事件A的概率
p(B | A):给定事件A , 事件B的概率
p(A):事件A的概率
p(B):事件B的概率
朴素贝叶斯分类器在给定一组特征值(即p(yi | x1 , x2 , … , xn))的情况下计算类的概率 。将其输入贝叶斯定理:

文章插图
p(x1 , x2 , … , xn | yi)表示给定类别标签的特定特征组合(数据集中的观察值/行)的概率 。我们需要非常大的数据集来估计特征值所有不同组合的概率分布 。为了克服这个问题 , 朴素贝叶斯算法假定所有特征彼此独立 。此外 , 可以删除分母(p(x1 , x2 , … , xn)) , 因为它仅对给定观测值(p(yi | x1 , x2 , … , xn)的一类条件概率的值进行归一化 ) 。
类(p(yi))的概率很容易计算:

文章插图
【11种最常见的机器学习算法简介】
在特征是独立的假设下 , p(x1 , x2 , … , xn | yi)可以写成:

文章插图
给定类别标签(即p(x1 | yi))的单个特征的条件概率可以从数据中轻松估算 。该算法需要为每个类别独立存储特征的概率分布 。例如 , 如果有5个类别和10个特征 , 则需要存储50个不同的概率分布 。
将所有这些加在一起 , 对于朴素贝叶斯算法来说 , 计算给定特征值(p(yi | x1 , x2 , … , xn))观察类的概率变得容易 。
与复杂算法相比 , 所有特征都是独立的这一假设使朴素贝叶斯算法非常快 。在某些情况下 , 速度比精度更高 。另一方面 , 相同的假设使朴素贝叶斯算法不如复杂算法准确 。速度是有代价的!
4. Logistic回归逻辑回归是一种监督学习算法 , 主要用于二进制分类问题 。尽管"回归"与"分类"相矛盾 , 但是这里的重点是"逻辑"一词 , 指的是在该算法中执行分类任务的逻辑函数 。逻辑回归是一种简单但非常有效的分类算法 , 因此通常用于许多二进制分类任务 。客户流失 , 垃圾邮件 , 网站或广告点击预测是逻辑回归提供强大解决方案的一些示例 。
逻辑回归的基础是逻辑函数 , 也称为Sigmoid函数 , 该函数可以接受任何实数值 , 并将其映射到0到1之间的一个值 。

文章插图
考虑我们有以下线性方程式可以解决:

文章插图
Logistic回归模型将线性方程式作为输入 , 并使用logistic函数和对数赔率执行二进制分类任务 。然后 , 我们将得到著名的逻辑回归形图:

文章插图
我们可以按原样使用计算出的概率 。例如 , 输出可以是"此电子邮件为垃圾邮件的概率为95%"或"客户点击此广告的概率为70%" 。但是 , 在大多数情况下 , 概率用于对数据点进行分类 。例如 , 如果概率大于50% , 则预测为肯定类别(1) 。否则 , 预测为否定等级(0) 。
对于所有高于50%的概率值 , 并不总是希望选择肯定的类别 。关于垃圾邮件案例 , 我们几乎必须确定要将电子邮件归类为垃圾邮件 。由于检测为垃圾邮件的电子邮件直接进入垃圾邮件文件夹 , 因此我们不希望用户错过重要的电子邮件 。除非我们几乎确定 , 否则电子邮件不会被归类为垃圾邮件 。另一方面 , 在与健康相关的问题中进行分类时 , 要求我们更加敏感 。即使我们有点怀疑细胞是恶性的 , 我们也不想错过它 。因此 , 用作正面和负面类别之间阈值的值取决于问题 。很好的是 , 逻辑回归使我们可以调整此阈值 。
推荐阅读
- 英特尔18万6nm芯片订单花落台积电,竞对或成台积电7nm最大客户
- 海洋动物身体庞大全长可达20米是世界上最大的鱼类 海洋中速度最快的动物
- 经常上火喝什么茶好,喝什么茶去胃火最好
- 钓鱼最好的气压是多少?
- 世界上最重的牛有多少吨 世界最重的牛有多重
- 林肯公园最好听的歌推荐
- 宇宙中最近的两颗恒星 距离太阳最近的两颗行星分别是
- 三角龙身长多少米 最大的翼龙长多少米
- 最大松鼠的体重多少 世界上最小的松鼠
- 太阳系中最小的 太阳和地球哪个大哪个小
