「回顾」混合、安全对抗下人工智能设计原则--粉丝服务平台-粉丝头条-fensifuwu.com

「回顾」混合、安全对抗下人工智能设计原则

科技 08-05 来源： DataFunTalk

本文由DataFun社区根据同盾科技反欺诈算法总监谭炽烈老师在2018AI先行者大会中分享的《混合、安全对抗下人工智能设计原则》编辑整理而成。

导读：今天分享的内容分为以下几个方面，首先是同盾公司简介，反欺诈面临的高对抗问题，然后根据同盾的实践经验讲一下反欺诈解决方案、人工智能应用的设计原则等。

同盾公司简介

同盾科技成立于2013年主要做第三方智能风控和分析决策引擎，为金融、O2O等十来个行业提供风控、营销、反欺诈服务。专攻领域有区块链、大数据处理、网络欺诈分析、机器学习、深度学习、人工智能、自然语言处理等。

反欺诈面临的高风险问题

AI遇到的问题有薅羊毛、交易里面的反欺诈，身边有很多欺诈行为，如账号盗用（钓鱼网站、伪登录网站）、垃圾注册（薅羊毛，通过注册大量账号，规整利益到一起），盗卡盗刷主要是针对银行，ATM磁卡机侧漏获取磁条信息中的账号密码。群控机器就是有很多账号，将账号和设备进行关联，可以通过风控规则进行拦截，电信诈骗就是通过电话或者是短信的方法持续去引导和诱骗受害者，进入到紧急危险场景，骗取金钱。金融卡套现主要是卡商和机构勾结，商用风险和信用卡风险类似。

同盾对全网30亿设备进行欺诈团伙画像分析，发现每日欺诈访问比例8.55%以上，增长趋势逐渐往高科技团伙作案发展，团伙规模逐渐扩大。这里有个提示是当一个欺诈团伙由小发展到大，需要尽快将其拦截，不然后期危险会越来越大。作案手段逐渐多元化，每个行业的欺诈手段和方式都不样，场景也不一样。欺诈团伙分工也是越来越来明显，早期只是对漏洞进行攻击，现在做成一个产业的分工。控制很多虚假号码，身份证无法虚假就是搜集，手机号码等通过群控来薅羊毛，专业攻击软件实现目的，互联网时代很多营销活动初衷是好的，但是设计体系没有完善，黑产就会利用这一点，包括前段时间土耳其汇率下降。

如果要对风险进行一个防控，要做几个事情。首先要知道黑产是什么、到底是怎么做的、目的是什么，第二个要知道系统有哪些漏洞，第三个就是有哪些工具去防控这个事情。如下图所示，疑似黑产发生攻击时，有四个时刻。第一个就是攻击发生，平台受到威胁后会进行攻击情报获取、异常预警快速识别风险。平台发现风险、策略分析、拦截风险。当黑产发现被拦截，可能会想办法绕过拦截继续进行攻击。这个过程是不断循环的，不断迭代更新，技术对抗也不断加码。从攻击发生到发现风险，平台要尽早发现并预警风险，因此需要不断完善预警系统，并收集情报；从发现风险到拦截风险，即我们需要分析数据现状以及现在攻击的态势是怎么样的，通过分析产生新的策略并实施拦截。黑产拦截有几种方法，一种就是实时，通过黑白名单机制。还有就是通过无监督或者半监督的方法，找到团伙特征来做一些分析，由于数据和时效性无法实时上线，因此需要无监督方法实现，具体包括图的计算，更高维的有监督算法做一个分类。

拦截到风险到黑产发现之前，可以做一些随机策略从而延长机制。从攻击发生到拦截，上面一部分平台是受攻击的，底下是得到防御和保护的阶段。对于系统希望上面时间越短越好，下面时间越长越好，这样平台受损就少。黑产的攻击有好多种，而且同一个平台遭受不同欺诈团伙攻击，发生时间、渠道、团伙大小、手段等都可能不同。

针对薅羊毛场景，具体分工为：商家会发布一个优惠，黑产获取信息发掘有利可图进行攻击。平台可能只有有限优惠券可以领，这样黑产会让很多人做这个事情，将其归拢一起，获取利益最后做利益分配。

反欺诈解决方案

上面梳理了黑产是怎样的，有哪些手段，接下来讲我们有哪些工具来进行防御。人工智能并不是无所不能的，当然也不是完全依赖人工，因此协调人工运营、决策、人机协同，达到更快、更准的理念。结合业务场景、流程、风险问题设计，通过数据的驱动获得整个人工智能算法的应用。如下图所示，在这个过程中可用的工具分为无监督和有监督两种。有监督包括分类、回归等，对于反欺诈大部分是分类，回归用的较少，分类算法有LR、贝叶斯、随机森林或者GBDT。无监督方法更多用于预警、关系挖掘（图挖掘LPI、标签传播）等。

机器学习算法开发流程如下图，(1) 首先我们要定义明确业务目标，目标明确能够很好的提升算法水平。依据业务场景特征、行为做一些对抗分析，如薅羊毛在刷单和众包里面都有，也有可能群控设备，但是其反馈是不一样的；(2) 然后数据分析，需要明确黑白样本有没有，数据缺失率、准确率如何，能否支撑目标的运行；(3) 特征选择，这决定了算法的效果。并不是所有的算法都可以使用，不同的特征只适应特定的场景，需要依据业务目标和拿到的数据选择特征；(4) 算法训练，前期准备好，时间可控，一般可收敛，如果不收敛就需要在前期工作做些调整；(5) 验证测试，有监督中验证测试比较简单，分类就统计准确率和召回率。无监督中更多需要人去确认分类是否有意义，能不能解决问题；(6) 迭代更新。