分析印度杂志
现在阅读
如何使用支持向量机进行一类分类?
分析印度杂志

如何使用支持向量机进行一类分类?

在大多数分类问题中,模型将数据分为多个类。单类分类是将数据集中的特定数据元素分离到单个类别中的一种方法。离群点检测和新奇检测是一类分类的例子,其中离群点元素与其他数据元素分开检测。在本文中,我们将讨论一类分类问题,并了解如何将支持向量机(SVM)用于这一目的。用于此目的的支持向量机称为一类支持向量机。下面列出了本文将涉及的主要讨论点。

表的内容

注册AWS数据与分析秘密会议>>
  1. 一类分类问题
    1. 孤立点检测
    2. 新奇的检测
  2. 基本支持向量机
  3. 一类分类的支持向量机

让我们从理解一类分类问题开始。

一类分类问题

在许多情况下,我们需要检测数据中的异常值。许多机器学习模型在对异常元素建模时存在不精确性。所以对我们来说,最基本的要求就是确定新观测结果是否属于相同的现有分布,或者新观测结果是否应该被确定为不同的分布。这些检测通常用于数据集的清理过程中。下面将讨论其中两个最重要的任务。

孤立点检测

在训练数据中,远离其他观测值的观测值可以被视为异常值。离群值估计器试图使一个区域适应其下的大部分训练,而忽略偏离的观测值。它也可以称为无监督异常检测。

新奇的检测

让我们考虑不包含异常值的训练数据,我们想知道即将到来的或新的观测是否为异常值。在这种情况下,异常值可以被称为新颖性。它可以看作是半监督异常检测。

我们可以说,如果我们有新的观察结果,那么我们可以说,我们是否只想从上面的一个类中判断出这是一个新的观察结果,而不是一个新的观察结果。例如,我们可以说一个模型是在机器上工作的,机器只需要对一种给定的输入执行一种垃圾处理,模型记录并预测输入的属性是否适合机器。这类问题称为一类分类问题。在这些类型的问题中,任务是识别特定数据元素的单个类标签。

基本支持向量机

支持向量机基本上是一种可以用于分类和回归分析的机器学习模型。它主要用于分类问题。让我们考虑由两个类组成的数据的支持向量机建模。

支持向量机最重要的特性之一是利用其非线性函数将空间中的高维数据投影出来,从而产生非线性决策边界。它利用它的函数提升I空间的观测值的特征空间F,它不能被线性函数或直线分隔。提升的特征空间可以用直线超平面分割。这个超平面用于将一个类的数据与其他类数据分开。这个超平面可以是非线性曲线的形式。

图像源

上图表示超平面H1、H2、,H3用于分离两个类别的数据点,其中H1未将其分离,但H2和H3为。拟合数据点之间的超平面可计算裕度,该裕度可被视为超平面与最近点之间的距离,该距离应与类别数据和最大值相等。从上图中,我们可以说H3比H1根本不适合的H2更适合。为了避免模型的过度拟合,引入了松弛变量,允许一些数据点位于裕度范围内。常数C总是大于零,它决定了最大化裕度和该裕度内的训练数据点数量(以及训练误差)之间的权衡。

任何超平面都可以写成点X的集合。

其中w可以是超平面的法向量(不必标准化)。上面给出的超平面例子显示了一个线性支持向量机。其中,数据点x的判定函数可以写成

函数K(x, xi)是一个核函数可以定义为

k(x,xi)=а(x)Tа(xi)

其中ϕ为非线性函数。决策函数的结果取决于特征空间中向量的点向量。这个核函数是任何核函数的一种非常简单的形式,可以用在空间分布简单的数据上。最常用的核函数是高斯径向基核函数,可以定义为:

其中σ为核参数,分子为异函数。使用这个函数集支持向量机分类器两个包含数据的类,但接下来,我们想对只包含一个类的数据进行分类。这里有一个类支持向量机。

一类分类的支持向量机

另请参阅
满足MachineHack买家时间预测挑战的顶尖选手

我们可以通过两种不同的方法来了解一类支持向量机——一种是由Scholkopf等另一个由税与税. 让我们讨论第一种方法,其中通过将数据点与特征空间分离并最大化从超平面到特征空间的距离来检测新颖性。这种方法产生的函数集中在密度最大的空间,因此,如果观测值位于稠密区域,函数可以退出+1,如果观测值属于低稠密空间,函数可以退出-1。

线性SVM模型最小化函数可定义为:

在这种方法中,最小化函数是

在线性支持向量机中,使用C参数的多类分类函数与使用ν参数的单类分类函数的参数存在细微差异。该参数有助于设置离群值分数的上界和支持向量机建模所需的训练示例数量的下界。

第二种方法在特征空间中使用球形边界,而其他方法则使用规划师方法。得到的超球由中心和半径组成。这里半径的平方是最小的。超球的中心是一组支持向量的线性组合,该方法的最小函数为:

我们可以看到,这种方法是使用函数的相似性差异是超球面的中心之间的距离和数据点严格小于或等于R,创建了一个密集的空间数据点的距离比这可以被认为是离群值。为了创建软边距,松弛变量与参数C一起使用。

因此,从上面的直觉,我们可以说,第一种方法是使用参数来区分两类和一类SVM分类器,第二种方法是使用超球体来制作球体下的一类数据,前提是数据点距离超球体中心的距离小于或等于半径。

最后的话

在本文中,我们试图了解一类异常值和新颖性检测问题。我们还可以看到使用SVM作为单类分类器的各种方法。本文的主要目的是解释为什么我们使用一类支持向量机对一类进行分类。我们还讨论了支持向量机使用的超平面是单类分类中最重要的因素。我们讨论了两种方法,其中第一种方法使用超平面,但最小化函数中的参数使SVM在一类SVM中有用。第二种方法使用超球体进行一类分类。我们可以使用模型从scikit学习实现一类SVM分类器。

参考资料:

你怎么看?

加入我们的不和服务器。加入一个有吸引力的在线社区。加入这里.


订阅我们的时事通讯

通过分享你的电子邮件获得最新的更新和相关的优惠。

188BET网页

滚动到顶部
Baidu