异常检测的应用流程异常检测作为机器学习算法中

文章图片

文章图片
异常检测作为机器学习算法中的一种常见应用，近年来常被提及。那么什么是异常检测，目前有哪些经典应用？本文将一探究竟。
作者｜中诚信征信建模咨询部张晓强
异常检测是指在数据中发现不符合预期行为模式的数据的问题。这里所说的异常不一定代表是“坏”的事情，但往往是“有价值”的事情，我们对异常的成因感兴趣。在不同的应用领域中，异常的定义是不一样的：在金融行业的反欺诈和信用卡诈骗检测中，我们把欺诈行为或者金融风险作为异常；在罕见病检测中，我们把罕见病当作异常，比如检测早发的阿尔兹海默症；在网络安全入侵检测中，我们把网络流量中的入侵作为异常。
异常检测往往是在无监督的模式下完成的，历史数据中没有标签或者只有极少的标签，我们不知道哪些数据是异常，因此无法用监督学习去检测。目前异常检测在风控领域的应用比较广泛，主要是因为异常标签获取困难，客户的异常行为、欺诈手法变化较快，好人的行为总是相似的，坏人的行为各有各的不同。为了能够把风控做到风险暴露之前，更好地检测客户群体的异常模式，对异常检测算法的研究具有很高的实际应用价值。
异常检测技术
异常检测通常是在无监督的模式下完成的，无监督模型的建模难点并不在于模型，而在于特征的选取。由于没有标签，特征的构造并不能通过数据分析手段进行，因此通常需要结合领域知识进行精准的特征构造。例如刷单、作弊等难以直接通过标签验证的场景，初期常基于专家经验挑选特征（从业务角度、欺诈手法出发），并通过异常检测模型进行欺诈识别，以在保障平台权益的前提下进行数据积累。
【异常检测的应用流程】异常检测的常用算法包括LOF、IForest、AutoEncoder等，下面简要介绍部分算法的应用流程：
1、LOF
异常局部因子（LOF）是一种基于密度的异常检测方法。LOF通过局部可达密度刻画数据密度，并用它衡量样本的异常程度。
LOF算法与KNN类似，不过度量方法不同，它将每一个样本到其k近邻样本的距离量化为一种密度的概念，称为局部可达密度。在该算法中，需要确定近邻样本个数k ，然后根据相应公式得到异常分数。简单来说，一个点的密度相对于k-近邻点的密度越小，那么这个点越可能是异常点。
LOF算法的应用流程如下：
（1）首先对样本空间进行去重，分别计算每一个样本到样本空间内其余点的距离。
（2）将步骤1中的距离升序排列。
（3）指定近邻样本个数k ，对于每个样本点，寻找其k近邻样本，然后计算LOF分数，作为异常分数，这种异常分数是由局部可达密度计算得到的。
2、IForest
孤立森林（IForest）是一种基于空间随机划分思想的集成算法，由多颗二叉树并行得到，再将输出结果进行加权平均。IForest的每颗孤立树（iTree）中，特征及特征值的选择是完全从数据中随机选取的，根据样本在所有孤立树上的平均路径长度来衡量样本的异常程度，计算公式如下：

文章图片

文章图片
其中，表示xi在所有孤立树上的路径长度的均值，表示一棵孤立树上训练样本的个数，表示用个样本训练的二叉树的平均路径长度，作为归一化项。异常分的取值在0-1之间，数据x在多颗孤立树中的平均路径长度越短，得分越接近1 ，表明数据x越异常。