异常检测的应用流程
文章图片
文章图片
异常检测作为机器学习算法中的一种常见应用 , 近年来常被提及 。那么什么是异常检测 , 目前有哪些经典应用?本文将一探究竟 。
作者|中诚信征信建模咨询部张晓强
异常检测是指在数据中发现不符合预期行为模式的数据的问题 。这里所说的异常不一定代表是“坏”的事情 , 但往往是“有价值”的事情 , 我们对异常的成因感兴趣 。在不同的应用领域中 , 异常的定义是不一样的:在金融行业的反欺诈和信用卡诈骗检测中 , 我们把欺诈行为或者金融风险作为异常;在罕见病检测中 , 我们把罕见病当作异常 , 比如检测早发的阿尔兹海默症;在网络安全入侵检测中 , 我们把网络流量中的入侵作为异常 。
异常检测往往是在无监督的模式下完成的 , 历史数据中没有标签或者只有极少的标签 , 我们不知道哪些数据是异常 , 因此无法用监督学习去检测 。目前异常检测在风控领域的应用比较广泛 , 主要是因为异常标签获取困难 , 客户的异常行为、欺诈手法变化较快 , 好人的行为总是相似的 , 坏人的行为各有各的不同 。为了能够把风控做到风险暴露之前 , 更好地检测客户群体的异常模式 , 对异常检测算法的研究具有很高的实际应用价值 。
异常检测技术
异常检测通常是在无监督的模式下完成的 , 无监督模型的建模难点并不在于模型 , 而在于特征的选取 。由于没有标签 , 特征的构造并不能通过数据分析手段进行 , 因此通常需要结合领域知识进行精准的特征构造 。例如刷单、作弊等难以直接通过标签验证的场景 , 初期常基于专家经验挑选特征(从业务角度、欺诈手法出发) , 并通过异常检测模型进行欺诈识别 , 以在保障平台权益的前提下进行数据积累 。
【异常检测的应用流程】异常检测的常用算法包括LOF、IForest、AutoEncoder等 , 下面简要介绍部分算法的应用流程:
1、LOF
异常局部因子(LOF)是一种基于密度的异常检测方法 。LOF通过局部可达密度刻画数据密度 , 并用它衡量样本的异常程度 。
LOF算法与KNN类似 , 不过度量方法不同 , 它将每一个样本到其k近邻样本的距离量化为一种密度的概念 , 称为局部可达密度 。在该算法中 , 需要确定近邻样本个数k , 然后根据相应公式得到异常分数 。简单来说 , 一个点的密度相对于k-近邻点的密度越小 , 那么这个点越可能是异常点 。
LOF算法的应用流程如下:
(1)首先对样本空间进行去重 , 分别计算每一个样本到样本空间内其余点的距离 。
(2)将步骤1中的距离升序排列 。
(3)指定近邻样本个数k , 对于每个样本点 , 寻找其k近邻样本 , 然后计算LOF分数 , 作为异常分数 , 这种异常分数是由局部可达密度计算得到的 。
2、IForest
孤立森林(IForest)是一种基于空间随机划分思想的集成算法 , 由多颗二叉树并行得到 , 再将输出结果进行加权平均 。IForest的每颗孤立树(iTree)中 , 特征及特征值的选择是完全从数据中随机选取的 , 根据样本在所有孤立树上的平均路径长度来衡量样本的异常程度 , 计算公式如下:
文章图片
文章图片
其中 , 表示xi在所有孤立树上的路径长度的均值 , 表示一棵孤立树上训练样本的个数 , 表示用个样本训练的二叉树的平均路径长度 , 作为归一化项 。异常分的取值在0-1之间 , 数据x在多颗孤立树中的平均路径长度越短 , 得分越接近1 , 表明数据x越异常 。
- 智库论坛 | 社区电商推动供应链数字化转型的对策建议
- 人类与AI如何共处?诺奖科学家、将棋天才、“低欲望社会”提出者的不同解答
- 线上新书发布!云上带你了解有关“冬奥”的那些事儿
- 20合1混采! 核酸检测要提速了
- 我的世界大闹天宫龙宫怎么玩(我的世界大闹天宫龙宫打法技巧一览)
- 复苏的魔女竞技场用什么队伍(复苏的魔女竞技场队伍搭配心得分享)
- 复苏的魔女魔导装备boss怎么打(复苏的魔女魔导妨害装备获取攻略大全)
- 今年的iphonese,还是你熟悉的模样
- 长安福特蒙迪欧在中国市场的“全球化”
- safari浏览器中的indexeddb漏洞
