异常检测的应用流程( 二 )
文章图片
文章图片
IForest算法的应用流程如下:
(1)从样本空间中随机选择一部分样本 , 从特征空间随机选择一个特征 , 即行列采样;
(2)在现有特征维度上随机选取一个特征值作为划分节点 , 即阈值;
(3)分化决策树 , 左枝放入小于等于该阈值的样本 , 右枝放入大于该阈值的样本;
(4)重复上述过程 , 直到数据不再可分 , 或者当前树的分化达到了开始设定的二叉树深度;
(5)重复生成多颗二叉树 , 根据样本在所有二叉树上的平均路径长度衡量样本的异常分数 。
如图1所示 , 孤立样本xi需要二叉树分裂11次 , 而孤立样本xo只需要分裂4次即可 , 根据孤立森林的定义xo更有可能是异常 , 因为该样本更容易被孤立 。
文章图片
文章图片
图1IForest算法
由于在构建二叉树时 , 特征和样本的选择都是随机的 , 所以采用ensemble的方法 , 通常树的数量越多 , 算法越稳定 。此外 , 由于每棵树都是互相独立生成的 , 可以实现并行 , 将任务部署在大规模分布式系统上来加速运算 。
3、AutoEncoder
AutoEncoder(AE , 自动编码器)是一种无监督的学习数据表示的神经网络方法 , AE可以通过计算重建误差检测数据中的异常点 。
AE的输出层的节点数与输入层的节点数相同 , 并且结构是分层且对称的 , AE的目标是训练输出以尽可能好的重建输入 。由于AE创建了低维的数据表示 , 因此该算法很自然地可以应用于异常点发现 , 这里的基本思想是离群点比正常点更难准确地表示 。因此 , 在重建异常值时 , 误差会很大 , 这提供了对数据点进行评分的方法 。
AutoEncoder算法的应用流程如下:
(1)构建全连接的自动编码器 。
文章图片
文章图片
图2自动编码器
(2)对自动编码器采用集成学习方法获得更高的准确性 , 也就是采用Dropout方法获得一系列完全独立的神经网络 , 然后将结果组合起来 。
文章图片
文章图片
图3dropout后的自动编码器
(3)样本点在所有的集成子模型上进行打分 , 每个样本点取得分的中位数作为异常分数 。
文章图片
文章图片
图4集成子模型
信贷风控领域的应用
文章图片
文章图片
图5异常检测技术的应用
(1)样本清洗:采用异常检测模型剔除数据中极端的异常值 , 比较剔除前后的数据集建模结果的好坏 , 如果变好可以剔除 , 如果变差不能剔除 , 从而实现样本清洗的功能 。
(2)欺诈检测:欺诈检测可细分为个体欺诈检测与团伙欺诈检测 。其中 , 个体欺诈具有占比极小、与整体显著不同的特点 , 这与离群点的性质相同 , 因此常将异常检测技术用于个体欺诈检测 。在实践中 , 配合相关的业务经验 , 可以达到较好的效果 。团伙欺诈检测的中心思想为团伙发现 , 在金融领域 , 聚集就意味着风险 , 因此通常使用基于图的社区发现算法进行团伙欺诈检测 。
(3)PreA预筛选模型:PreA模型是指在申请评分之前的模型 , 使用异常检测算法输出的异常分数作为评分 , 拒绝很少量的客群 , 该群体中大部分都是负样本 , 即使进入申请评分模型也会被拒绝 , 但是查询这部分客户的外部收费数据会带来资金浪费 , 使用免费数据对客户做初步筛选有助于降低成本 。
- 智库论坛 | 社区电商推动供应链数字化转型的对策建议
- 人类与AI如何共处?诺奖科学家、将棋天才、“低欲望社会”提出者的不同解答
- 线上新书发布!云上带你了解有关“冬奥”的那些事儿
- 20合1混采! 核酸检测要提速了
- 我的世界大闹天宫龙宫怎么玩(我的世界大闹天宫龙宫打法技巧一览)
- 复苏的魔女竞技场用什么队伍(复苏的魔女竞技场队伍搭配心得分享)
- 复苏的魔女魔导装备boss怎么打(复苏的魔女魔导妨害装备获取攻略大全)
- 今年的iphonese,还是你熟悉的模样
- 长安福特蒙迪欧在中国市场的“全球化”
- safari浏览器中的indexeddb漏洞
