11种最常见的机器学习算法简介( 二 ) _机器学习

3.朴素贝叶斯朴素贝叶斯是一种用于分类任务的监督学习算法。因此，它也被称为朴素贝叶斯分类器。
朴素贝叶斯假设要素彼此独立，要素之间没有关联。但是，现实生活中并非如此。特征不相关的这种天真假设是将该算法称为"天真"的原因。
朴素贝叶斯算法的直觉是贝叶斯定理：

文章插图

p（A | B）：给定事件B发生事件A的概率
p（B | A）：给定事件A ，事件B的概率
p（A）：事件A的概率
p（B）：事件B的概率
朴素贝叶斯分类器在给定一组特征值（即p（yi | x1 ， x2 ， … ， xn））的情况下计算类的概率。将其输入贝叶斯定理：

文章插图

p（x1 ， x2 ， … ， xn | yi）表示给定类别标签的特定特征组合（数据集中的观察值/行）的概率。我们需要非常大的数据集来估计特征值所有不同组合的概率分布。为了克服这个问题，朴素贝叶斯算法假定所有特征彼此独立。此外，可以删除分母（p（x1 ， x2 ， … ， xn）），因为它仅对给定观测值（p（yi | x1 ， x2 ， … ， xn）的一类条件概率的值进行归一化）。
类（p（yi））的概率很容易计算：

文章插图
【11种最常见的机器学习算法简介】
在特征是独立的假设下， p（x1 ， x2 ， … ， xn | yi）可以写成：

文章插图

给定类别标签（即p（x1 | yi））的单个特征的条件概率可以从数据中轻松估算。该算法需要为每个类别独立存储特征的概率分布。例如，如果有5个类别和10个特征，则需要存储50个不同的概率分布。
将所有这些加在一起，对于朴素贝叶斯算法来说，计算给定特征值（p（yi | x1 ， x2 ， … ， xn））观察类的概率变得容易。
与复杂算法相比，所有特征都是独立的这一假设使朴素贝叶斯算法非常快。在某些情况下，速度比精度更高。另一方面，相同的假设使朴素贝叶斯算法不如复杂算法准确。速度是有代价的！
4. Logistic回归逻辑回归是一种监督学习算法，主要用于二进制分类问题。尽管"回归"与"分类"相矛盾，但是这里的重点是"逻辑"一词，指的是在该算法中执行分类任务的逻辑函数。逻辑回归是一种简单但非常有效的分类算法，因此通常用于许多二进制分类任务。客户流失，垃圾邮件，网站或广告点击预测是逻辑回归提供强大解决方案的一些示例。
逻辑回归的基础是逻辑函数，也称为Sigmoid函数，该函数可以接受任何实数值，并将其映射到0到1之间的一个值。

文章插图

考虑我们有以下线性方程式可以解决：

文章插图

Logistic回归模型将线性方程式作为输入，并使用logistic函数和对数赔率执行二进制分类任务。然后，我们将得到著名的逻辑回归形图：

文章插图

我们可以按原样使用计算出的概率。例如，输出可以是"此电子邮件为垃圾邮件的概率为95％"或"客户点击此广告的概率为70％" 。但是，在大多数情况下，概率用于对数据点进行分类。例如，如果概率大于50％，则预测为肯定类别（1）。否则，预测为否定等级（0）。
对于所有高于50％的概率值，并不总是希望选择肯定的类别。关于垃圾邮件案例，我们几乎必须确定要将电子邮件归类为垃圾邮件。由于检测为垃圾邮件的电子邮件直接进入垃圾邮件文件夹，因此我们不希望用户错过重要的电子邮件。除非我们几乎确定，否则电子邮件不会被归类为垃圾邮件。另一方面，在与健康相关的问题中进行分类时，要求我们更加敏感。即使我们有点怀疑细胞是恶性的，我们也不想错过它。因此，用作正面和负面类别之间阈值的值取决于问题。很好的是，逻辑回归使我们可以调整此阈值。