分享嘉宾|费栋 小红书 社区风控策略算法负责人
编辑整理|韩佳 阳光
出品社区|DataFun
01
社区反作弊的意义
在讨论社区反作弊之前,先明确下什么是作弊以及作弊会带来的行业风险。
1. 作弊的定义和行业风险
发现风险和定义问题是风控工作中非常关键的一环,但也是经常被大家忽略的一环。本文给出个人的定义,即“一切通过非正常手段去滥用产品功能,以谋取利益的行为”。关键词“牟利”,不论哪个行业,作弊一定是趋利的。不同行业的作弊风险形式并不固定,其需要结合产品形态和业务模式来界定。
比如,电商场景下作弊可能带来的风险有刷单、薅羊毛和黄牛等。支付场景的主要风险有交易诈骗,洗钱以及信用卡套现等。那么,社区场景下又面临着哪些风险呢?小红书 UGC 社区的环境下,面临的主要风险有如下几类,数据刷量(数据造假),内容引流,欺诈以及虚假种草。
2. 社区反作弊的意义
多数场景下,反作弊的价值通过挽回XX资损来衡量。比如,电商的薅羊毛,支付的反信用卡套现,活动的骗补贴等,衡量标准可以是为平台节约了多少资损。那在社区中,该如何去衡量价值呢?或者说社区反作弊的意义是什么?
面向监管:如果反作弊做得不到位,相应风险问题的浓度就有可能会变高,比如诈骗和刷单问题。近期,有关部门针对互联网诈骗展开行动,如断卡行动、清网行动等等。如果这些问题得不到有效解决,会给平台带来监管的风险。
机器资源:大量的作弊行为可能占用网络资源,造成服务的堵塞,影响用户使用功能。
从以上两个角度考虑,作弊在短期内是有可能影响产品和平台生存。
作弊行为会产生大量的垃圾数据,而数据是产品乃至战略决策的重要支撑。如无法分辨虚假数据,当其量级和占比达到一定程度时,可能导致分析、决策的偏差和失误,影响业务的判断。
健康和真诚的内容生态和真实的数据是用户体验的保障。
我们将 C 端用户分为两类,一类用户无法分辨虚假数据和内容,于他们而言不真实的内容或数据会带来决策的误导;另一类用户能分辨虚假数据和内容,不至于被误导,但分辨和筛选的过程大大增加获取有效信息的成本。从长期来看,作弊可能会带来对平台的不信任和用户流失。
对于作者来说,作者是社区内容生产的核心原动力。如果作弊者的数据虚假、虚高的话,对其他作者不公平。长期来看,作弊会导致“劣币”驱逐“良币”。
最后一层,作弊行为会影响流量的价值,内容和数据的不真实,本身会降低公众对平台的认可度,长期来看会影响用户使用平台的兴致。从商业化的角度,最关心流量价值的是投放者,对于投放者,如果数据不准确会影响商业分析的结论偏差,导致投放效果不如预期,低估品牌的流量价值。
举例来说,某投放方通过数据分析挑选与其内容匹配且有流量的博主,认可其带货能力。假设该博主的数据是通过作弊刷出来的,投放后会发现效果不佳,ROI 不如预期,长此以往会引出平台互动 ROI 低的结论,导致对于平台流量价值的低估。
综上,不论是从平台生态还是流量价值的层面来看,虚假数据和内容都会影响平台发展潜力。做好社区反作弊,可以提高产品长期发展的上限。
--
02
社区黑灰产生态
1. 作弊背后的产业链:分工明确
作弊背后牟利者的产业链是什么?黑灰产的产业链分工非常明确,大致可以分上中下游三个部分。
上游主要来负责提供核心物料,比如,申请账号,如手机号(猫池、接码平台)、IP 资源(代理IP,秒波 IP)、设备的(模拟器改机、云控手机)。
中游负责技术的实现,比如做号:注册账号 ->养号 -> 将号卖给下游、封装刷量自动化脚本、营销工具等。
下游实现变现,一般是运营人员,是非技术的部分。通常,在黑灰色产业链中技术人员不会直接参与服务的变现。比如刷量服务中,常见通过网站裂变的形式发展代理和下线,实现刷量服务运营。在诈骗行业中,诈骗团伙中各司其职:运营人员一部分负责引流,一部分负责引流后培养用户信任,最后引导完成诈骗。
2. 作弊手法迭代:从自动化工具逐渐演变为真人众包,作弊成本增加,识别难度变大
早期大多数的攻击是脱机类接口作弊,通过对抗慢慢衍生出虚拟机和群控的形式。近些年众包作弊的形式也慢慢成为主流。对于黑产作弊手法的迭代,可以看出作弊成本变得越来越高。脱机仅需要账号和 IP,一旦突破防护即可实现大量作弊行为;群控则需要购买真实设备;众包则是依赖真人以任务分包的形式达到目的。虽然众包技术含量没有那么高,但全量识别的成本和难度是更高的。
从上述产业链可以看出,整个作弊行业的趋利性是非常明显的,背后往往会有着比较明确的变现思路和方法。而黑产的专业性也是在利益的驱动下迅速提升。不管从上游的资源到下游的获利,都分工明确,协同高效,慢慢的衍生出识别难度越来越大的作弊形式。这也要求做风控的同学跟进行业的形势和进展,做到知己知彼,在识别对抗的过程中不断的完善自我,做到迭代的优化。
--
03
作弊防控策略
1. 作弊防控思路
面对已知风险和产业链,下面来讨论下整个作弊防控的策略。所谓策略须先明确作弊防控的目标,以及达到目标的关键路径。
首先明确对于反作弊的预期。反作弊的本质是与作弊者成本的对抗,任何反作弊系统都无法做到 100% 的准确和召回。前面提到,无论何种形式作弊,它都是以牟利为目的的,而利益的来源是作弊成本和收益之间的价值差异。反作弊的工作就是提高作弊成本,尽量压缩作弊利益空间,降低作弊者的动机。因此,合理的目标设定是降低作弊行为在正常行为中的占比,控制风险的浓度。
关键路径是化被动识别为主动防御,如果长期作为被动方,可能没办法有全盘宏观的概念。要做到主动防御,一是构建风险的感知能力,尽早发现风险并且快速反应迭代;二是控制黑产的核心资源(账号,设备),树立高门槛设置准入壁垒,并将有问题的账号进行存量清理。收缩作弊者能使用的账号量和设备量,相应的新账号成本也会变高,这就控制了核心资源。
下面对作弊防控思路做进一步的拆解,也是一个比较通用的方法论,个人认为可以应用到各类风险控制场景里。首先业务风控最大的难点是对抗,无论作弊变成何种形式,唯一不变的就是对抗,它是一直存在的。围绕对抗抽象出几个模块:风险感知、能力建设、风险识别、风险处置、效果评估。在遇到新的对抗时,这几个环节间会进行不断的循环迭代。下面以小红书社区反作弊为例,具体介绍这几个模块的设置。
风险感知层负责更快发现风险,化被动救火为主动防御。具体分为情报运营,黑产卧底和红蓝军对抗,帮助风险识别更早的发现问题,可以说情报是整个风险防控体系的眼睛,解决“看得见”的问题。
能力建设是面向对抗的快速响应能力。这部分涉及的模块,一是端+云联防,在合法合规前提下通过端获取设备信息,并进一步加工为可用特征,供云防策略和算法使用。二是可以快速接入且可灵活配置的风控系统,以实现策略规则的快速迭代。三是为更快的实现从零到一的落地风控场景,搭建可跨场景协同使⽤的风险画像平台,在新风险场景里快速迁移和使用数据基建能力。
风险识别模块,面向对抗需提高识别的准召。从几个角度拓展能力,首先扩充数据,结合设备特征、账号特征、行为特征,以及其他场景下识别的风险画像,做联合使用分析。其次,从挖掘的角度,利用官方平台和作弊者之间的信息不对称性,寻找作弊用户相较于正常用户的异常点:① 尝试由点到线,从分析单个行为变成分析一串行为即行为序列挖掘;② 从单点到面, 通过账号、IP 或设备等节点之间的拓扑关系进行团伙挖掘,可以带来很大的增益。
风险处置方面需要选择更有效的方式提高绕过成本。主要分为两个层面,一是处置对象,二是处置手段。在每个场景下该怎么处置,并没有一个标准答案,建议结合具体业务和业务中的风险来判断,了解风险背后的动机,在考虑应该采取怎样的处置手段才能提高绕过成本。
效果评估可以评估风险水位,一般来说常用的指标有作弊漏过量、漏过率、作弊服务价格、账号价格等。
2. 实现方案——风控体系:⽀持快速接入分析、灵活配置与能力迁移
小红书的风控体系,分为业务数据接入层,数据加工层,分析决策层,数据采集能力沉淀及运营和评估模块。
业务数据层,覆盖用户全场景的行为风控。从设备激活->账号注册\登录->内容浏览 ->交互->内容发布,从多场景层面实现联防联控。对于明确的作弊用户,直接拒绝访问从而加强准入的防御壁垒; 对于疑似异常用户或高难度作弊注册,建议做延迟处理或在后续关键环节上做拦截处置,可以达到增加绕过成本的目的:具体来说,如果在注册时直接拦截,作弊者可快速验证拦截原因;延迟拦截后作弊者定位识别方法的难度变大,找到绕过方法的成本也更高。
数据接入层,风控引擎支持实时请求接入,也支持准实时流式接入和离线数据接入。
数据加工层重点针对身份特征,网络环境,设备信息、行为数据、时序特征,累计因子等去做加工和挖掘,并输入至决策分析层。
决策分析层由策略引擎、模型引擎和数据引擎组成。其中策略引擎完成实时的规则产出和返回,支持灵活的策略配置和策略上下线。模型引擎,对于简单模型,可以做到线上 Serving;对于复杂模型或需要分析的模型,需通过近线或离线实现。
数据采集的能力沉淀层,包含设备指纹采集、名单系统、风险画像、关系图计算和风险事件模块。一方面,作为分析决策层的数据源做输入。另一方面,实现识别能力的迁移、使用等等。决策分析层也会向能力沉淀层做输出, 将新识别风险点落到能力沉淀里复用至其他风险场景。
--
04
社区反作弊实践
该章节主要分享小红书社区数据刷量风险的识别和治理工作。
1. 数据刷量反作弊实践——风险治理
风险治理环节置关重要,在实践中我们发现,同样的识别结果,在选择不同的治理对象和方式时,效果差异性非常大。分享下我们的理解,可以从影响、实现链路以及作弊动机三个层面剖析数据刷量的问题:
Q:数据刷量带来的影响是什么?