业务风控思考:如何建立识别、防御和决策体系?

2023-11-17

导语:在疫情扰乱生活节奏的三年中,经常会看到企业“降本增效”的话题。如:让员工感受寒气、搬走办公室绿植、降低食堂伙食标准等等。就企业运作成本而言,降低黑灰产(羊毛党、打码平台等)盗夺的有限资源无疑是最有效的降本方式之一。

据不完全统计:我国现有黑产团伙超3万个,团伙年利润超300万,每年因黑产涉及而造成的企业损失之和可超1000亿,线上流量有61.5%来自黑灰产。在极验与黑灰产持续对抗近10年的时间里,总结出黑灰产具有“效率高、速度快,规模大”的特性。黑灰产可能在行为上作弊,利用自动化轨迹脚本,模拟真实用户的操作路径;可能在设备上作弊,使用模拟器、云控群控和接口破解程序,大批量参与企业发起的营销活动;可能在身份上作弊,圈养成千上万个账户小号,在业务链路中蹲点伪装。

面对行为、设备、身份多维度作弊的黑产技术,全方位定位一个流量的可信程度,需要从行为、设备、身份三个维度建立识别、防御和决策体系。

行为轨迹模型

2012年具有全球交互安全创领者之称的极验首次提出了通过生物轨迹识别人机交互。此种方法运行迭代仅10年的轨迹模型,至今仍然占据各大验证码形式的主要的防御地位。从行为数据上识别和制止黑灰产的攻击,在各大 Top 类客户活动期间起到关键防御作用。随着客户群体扩大,轨迹模型也获得越来越多的数据喂养,精度和效果数据也越来越优秀。那么基于用户生物轨迹的模型到底如何建立的呢?

1. 收集样本

对 AI 或大数据有了解的同学应该都知道,样本数据在模型建立初期非常重要,同样在冷启动期间,样本数据往往也是建模遇到的最大困难之一。行为验证在推出之初,新颖的滑动交互样式,创新的轨迹识别理念,短时间吸引了很多客户。各大网站开始部署使用行为验证,一时间形成了良性的病毒式传播效应,网站上的真实用户、机器攻击脚本纷纷“滑一下”尝试通过当时体验最好的交互验证工具。最初的样本数据便由此慢慢积累。

2. 建立模型

有了轨迹样本数据,就需要建立轨迹识别模型,每当一个滑动行为完成,就实时输出模型判别结果。为了简单理解,研究人员将多维特征的轨迹简化成一个由二维特征的向量a(x,y),此时得到一个轨迹模型辨识函数F(先忽略这个函数如何得到),在二维坐标系中绘出函数 F 的轨迹,落在轨迹左上方的为真人轨迹,落在轨迹右下方的为机器轨迹。

 

随着模型的应用,会发现某天有红点落到了绿色真人轨迹区域,相应的绿点也落到了红色机器轨迹区域,如果线上我们对模型的辨识结果有封禁和放过两个动作,此时就会出现漏判和误判。这个时候就得不断优化辨识函数F,直到能尽可能完全区分人机轨迹。

3. 优化模型

当轨迹点在坐标系中出现了交叉,这个时候就需要优化模型,让辨识函数能更加及时、准确的纠正错误。这时就要用到 CNN 了,让模型自主进化,适应并学习不同轨迹特征,以到达准确区分。可能有同学会有疑问,如果绿色和红色点足够密集,一定存在一种可能性:二维坐标中辨识函数 F 无法将人机轨迹集合清晰区分成两个独立区域,那人机轨迹不就无法区分了吗?答案是肯定的,这种可能性存在,并且将二维还原成高维特征的情况也存在,这个时候单纯依靠 CNN 就有点捉襟见肘。

于是聚类模型就派上用场,相较于 CNN,聚类模型最大的不同点,可以简单的理解成:如果 CNN 依赖辨识函数 F 将轨迹分成两个区域,那聚类就是将轨迹分成多个簇。因为机器轨迹分布通常比较聚集,核心思路是哪个位置密集,就建立区分单元,然后用以封禁。模型优化是一个不断探索不断尝试的过程,在极验日均14亿+的数据量,为优化和迭代模型提供了先决条件;且多种模型配合使用会弥补单一模型的短板,能够更精准的防御每一次机器攻击。

设备画像模型

随着互联网发展,移动 App 应用几乎深入生活中每一个场景。只需一部手机便可以参加营销活动,完成游戏任务,领取奖励。企业期望的领取方式是由真实目标用户参与获得,但黑灰产批量运作手机设备去获取奖励,不仅破坏了公平性,而且无法达到企业真正的营销目的,于是从设备识别人机流量差异变得尤为重要。黑产对设备作弊方式主要分为两大类:安装风险工具和修改设备参数。

1. 设备指纹

设备指纹是为上网用户所使用的终端设备所生成的唯一标识,极验稳定不易篡改的设备指纹采用设备弱特征归因技术,不依赖 IMEI、IDFA 等高敏信息,符合隐私政策规范,从100多项数据特征中建立设多重互补算法模型,最后生成设备唯一标识。在重启、卸载、重装修改硬件参数等场景下仍然唯一不变。在拉新引流、投票助力等场景,识别一机多号、小号作案、刷量等异常行为。

2. 设备环境检测

单一依靠设备指纹,无法全面识别所有的作弊行为。如果能给每一台设备打上一个风险状态标签,便可随时感知该设备的风险程度。最新的设备画像不再和传统产品一样通过单一的“比对设备黑数据库”输出固化的风险分数。它采用“实时检测、实时对抗、实时更新”。从历史行为、实时风险、设备归因建立风险探测模型,准确给出当前设备的风险状态和风险标签。相较于风险分数,0和1这样直接的风险标识,能够更加直接提供企业处置信号,不再有层级边界带来犹豫不定的困扰。

 

值得一提的是,随着监管政策趋严,设备层面的风控面临着数据合规风险,依赖 IMEI、IDFA、Mac 地址等高敏数据建立的风控体系注定被淘汰。越来越多的黑灰产也开始使用定制机作弊,比如曾有某品牌的手机中,出现了不属于该品牌的字符样。这时就需要建立新的方案来识别定制机类作弊方式,这需要大量的黑白样本数据以及一个足够涵盖市场上主流的设备信息库。

账号画像模型

在网络实名制政策环境下,手机号几乎成为了真实网络用户的网络身份账号,极验账号画像模型90%是围绕手机号展开,账号画像模型主要提供两个能力:账号风险等级(低、中、高)、账号风险标签。

 假设在注册登录场景下,有如下情况:手机号为187xxxx1234的用户注册了某App,使用的设备对应的设备指纹为 AAA;一天后此账号又登录App,但这次使用的设备对应的设备指纹为 BBB;一周后的618活动中,我们发现此账号又进入了 App,此次登录的设备为模拟器。三次不同的场景分别使用了三个设备,并且在活动周期内,使用模拟器这种高危虚拟环境登录,说明这个账号极有可能是由黑灰产注册的小号,进入该 App 的主要目的是薅取 618 的活动资产。为了便于理解,将第一次注册、第二次登录、最后登录画成如下图所示:

 类似上面这种账号和设备存在一对多的关系,我们可以制定所有可用于分析的策略和规则,然后分析所有账号的信誉程度,从而标记账号的风险等级。首先给所有账号一个初始的分值,然后制定账号相关规则特征集合,并依据触碰与否给账号进行扣分和加分,最后长时间观察此账号的信誉分值变化,依据最终的账号信誉结果,给出账号的风险等级。

 当我们业务数据足够多,行业覆盖足够广时,我们将通过设备指纹、手机号、IP等建立一个跨行业、跨设备的交叉关系网络,形成特有的关系图谱。

 随着规则投入使用,我们将源源不断地获取每个手机号的风险等级和触碰的规则,将规则脱敏后建立标签系统,在返回账号风险等级,同时也返回该账号的风险标签,辅助企业进一步明确决策。

 

结语

行为、设备、身份组成了流量治理的三要素,极验正是依靠三要素模型来防御每一次异常攻击。将三个维度的安全模型联合一起,再配合动态调度引擎,为企业保驾护航。当羊毛党被任何一个模型检测到异常后,不但会实时调出安全工具进行二次校验,还会将相关标签回传到业务服务器,由业务方进一步处置决策,大大降低羊毛党的获利效率和概率,直到入不敷出,最终放弃以致空手而归。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

业务风控思考:如何建立识别、防御和决策体系? 的相关文章

  • leetcode--55--跳跃游戏

    题目描述 给定一个非负整数数组 你最初位于数组的第一个位置 数组中的每个元素代表你在该位置可以跳跃的 最大长度 判断你是否能够到达最后一个位置 示例 1 输入 2 3 1 1 4 输出 true 解释 我们可以先跳 1 步 从位置 0 到达
  • 【ChatGPT】基于WSL+Docker的ChatGPT PLUS共享服务部署

    最近买了ChatGPT PLUS服务 想通过web服务将它共享给其他人使用 搜了一下目前GitHub上比较热门的服务有 ChatGPT Next Web chatgpt web share 其中chatgpt web share支持API和
  • 【uni-app】css 关于 calc()函数计算无效

    计算符 注 计算 符前后都需要空格 否则计算无效
  • 华为OD机试真题 Java 实现【最多提取子串数目】【2023Q1 100分】

    一 题目描述 给定由 a z 26 个英文小写字母组成的字符串 A和 B 其中A中可能存在重复字母 B 中不会存在重复字母 现从字符串 A 中按规则挑选一些字母 可以组成字符串 B 挑选规则如下 同一个位置的字母只能被挑选一次 被挑选字母的
  • ue4加载本地版本_【虚幻4】创建本地数据库

    简介 这里我们主要通过使用Data table实现本地数据库 Data table可以用来保存一些用户配置 或者常用变量 或者用来实时更新外部表格数据到虚幻4中 一 创建Data table 1 首先创建Structure结构 这里我已经创
  • 我用什么写Python?

    通常来说 每个程序员都有自己趁手的兵器 代码编辑器 你要是让他换个开发环境 恐怕开发效率至少下降三成 然而 每个人对编辑器的喜好各不相同 甚至引发出诸如 神的编辑器 与 编辑器之神 这种信仰之争 但也正由此可见 个性化的编辑器对于一个程序员
  • 【FICO系列】SAP FICO 凭证错误:BKPFF$PRDCLN800在FI中达到的项目最大编号

    公众号 SAP Technical 本文作者 matinal 原文出处 http www cnblogs com SAPmatinal 原文链接 FICO系列 SAP FICO 凭证错误 BKPFF PRDCLN800在FI中达到的项目最大
  • 无法访问目标主机的原因及其和请求超时的区别

    使用ping命令时经常会遇到这两种情况 就表示网络出了问题 无法访问目标主机的原因 可以看到 无法访问目标主机 是来自一个IP的回复 实际上那个IP是一个路由器 因此 无法访问目标主机 实际上数据是发出去并且收到回复的 只不过收到的回复是别
  • 数据结构和算法(递归概念、迷宫回溯问题和八皇后问题代码实现)

    递归的概念 递归能够做解决什么问题 使用递归时需要注意的问题 递归的第一个应用 迷宫回溯问题 迷宫模拟 定义一个8 7的数组模拟迷宫 1表示围墙 0表示可以走的路 图中左上红圈为起点 右下红圈为终点 利用代码找到从起点到终点的路径 使用递归
  • 【Python】代码实现LL(1),LR(1)上下文无关文法(Stack()类)

    任务要求 针对书上第三章中的表达式文法 采用LL 1 LR 1 进行分析 相关文法 需要进行消除左递归等操作 顺手分享一下课本资源好了 可能不是最新版 排版略有点别扭 后文的书上内容就是指这本书 编译原理 陈意云 文字版 提取码 e0ag
  • Android Studio如何添加工程(project)为library(针对非gradle)

    这篇文章还是针对非gradle build的工程 gradle build有一些差别 在Eclipse要引用别的工程为本工程的library很简单 但是在Android Studio还是稍稍有点小复杂的 那如何引用别的工程为本工程的libr
  • 网络编程——TCP并发服务器模型

    1 多线程中的newfd 能否修改成全局 不行 为什么 因为如果是全局变量 文件描述符就是唯一的 所有的客户端都会在同一个文件描述符通信 2 多线程中分支线程的newfd能否不另存 直接用指针间接访问主线程中的newfd 不行 为什么 如果
  • 微信小程序-仿智行火车票12306

    微信小程序 仿智行火车票12306 微信小程序 仿智行火车票12306 主页有轮播图 有导航栏 有个人中心 可以实现火车票 飞机票 汽车票的选择 适合初学者学习 下面是示例图片 下载链接 https download csdn net do
  • Linux系统图形界面和命令行界面之间的切换

    一 系统不在虚拟机中的情况 使用ctrl alt F1 6切换到命令行界面 ctrl alt F7切换到图形界面 二 系统在虚拟机中的情况 Ctrl Alt shift F1 6切换到命令行界面 使用Alt F7返回到图形界面 注 以上方法
  • hashmap中为什么使用红黑树?

    在回答这个问题之前 我们先了解一下有关二叉树的基本内容 二叉排序树 又称二叉查找树 1 若左子树不为空 则左子树上所有结点的值均小于根结点的值 2 若右子树不为空 则右子树上所有结点的值均大于根节点的值 3 左右子树也为二叉排序树 平衡二叉
  • 2017 ICCV之语义分割:Cascaded Feature Network for Semantic Segmentation of RGB-D Images

    Cascaded Feature Network for Semantic Segmentation of RGB D Images 目前的问题 1 为了计算对象 场景关系的表示 最近大量的分割网络使用一组感受野来丰富卷积特征的文本信息 这
  • book_read_link

    结构性改革 黄奇帆 微信读书 分析与思考 黄奇帆的复旦经济课 黄奇帆 微信读书
  • java通过web3j获取ETH交易明细

    我们在项目里面如果想要得到用户的ETH交易明细怎么做呢 有两种方式 1 直接获取ETH最新块的交易明细 2 通过块获取用户的交易明细 废话不多说 直接贴代码看了 package com example demo web3jLog impor

随机推荐

  • pdf.js引入方式及初始化配置

    官方下载地址 Getting StartedA general purpose web standards based platform for parsing and rendering PDFs http mozilla github
  • actuator--基础--04--Springboot集成

    actuator 基础 04 Springboot集成 代码位置 https gitee com DanShenGuiZu learnDemo tree master actuator learn actuator01 1 代码 1 1 依
  • MongoDB游标

    数据库会使用游标返回 find 的执行结果 游标的客户端实现通常能够在很大程度上对查询的最终输出进行控制 你可以限制结果的数量 跳过一些结果 按任意方向的任意键组合对结果进行排序 以及执行许多其他功能强大的操作 要使用 shell 创建游标
  • 爬虫实战之华为应用市场

    目录 一 需求说明 二 步骤 1 检查当前页面的URL所获得的响应的数据 笨办法 程序验证 不建议 简单办法 抓包 验证 抓包 推荐 动态加载验证 查找页面的信息 2 获取排行页面数据 操作 源码 信息解析 3 详情页面分析 寻找URL 验
  • leetcode 577

    给定一个字符串 s 你需要反转字符串中每个单词的字符顺序 同时仍保留空格和单词的初始顺序 示例 1 输入 s Let s take LeetCode contest 输出 s teL ekat edoCteeL tsetnoc 示例 2 输
  • C++中的强引用与弱引用

    https juejin cn post 7102838307062546445 1 weak ptr的原理 weak ptr 是为了配合 shared ptr 而引入的一种智能指针 它指向一个由 shared ptr 管理的对象而不影响所
  • 神经网络中的激活函数

    一 激活的概念 将输入映射为特定分布的输出 完成非线性变换 多细胞生物神经元的树突接收信息 触发区整合电位 产生神经冲动 末端的突触向下一个神经元传递刺激 以人脑为例 人脑的细胞受刺激产生活动 而刺激的强度需要达到一定的阈值 没有达到阈值的
  • 基于51单片机数字频率计的设计与实现

    目录 第一章 系统原理与总体设计 1 1系统组成 1 2系统原理 1 3测量原理 1 4频率测量与总体设计 第二章 硬件电路设计 2 1硬件电路框图 2 2数字频率计原理图 2 3硬件电路设计 第三章 软件程序设计 3 1程序流程图 3 2
  • 魔方机器人之下位机编程------下位机完整程序

    头文件包含 include Includes h 总头文件 在此添加全局变量定义 uint8 msg 14 Hello World void PWM Init void PWM0 上侧旋转舵机 PWME PWME0 0x00 Disable
  • 查找恢复密钥

    登陆自己的微软账号可查看恢复密钥 点击以下链接查找恢复密钥 https account microsoft com devices recoverykey 根据密钥ID 输入对应的恢复密钥
  • win10蓝牙无法连接,可以尝试在此Windows设备上打开蓝牙

    win10蓝牙无法连接 可以尝试在此Windows设备上打开蓝牙 笔记本右下角蓝牙图标消失不见 操作步骤 1 首先在打开电脑中 按下 Win R 打开运行窗口输入 services msc 并进入 2 2 打开服务列表后 不断的向下翻 找到
  • 【华为OD机试真题】对称字符串(python)100%通过率 超详细代码注释 代码解读

    华为OD机试真题 2022 2023 真题目录 点这里 华为OD机试真题 信号发射和接收 试读 点这里 华为OD机试真题 租车骑绿道 试读 点这里 对称字符串 时间限制 1s空间限制 256MB限定语言 不限 题目描述 对称就是最大的美学
  • 最长公共上升子序列(LCIS)

    前置知识 LCS LIS 注意 刚开始看这个问题的时候 第一反应是先求出LCS再求出LCS的LIS 事实上这是有问题的 我们并不能保证这么求出的LCIS是最长的 比如下面这个例子 Example a 7 1 5 6 4 2 7 b 7 1
  • 【python + opencv + pytorch】车牌提取、分割、识别 pro版

    老规矩 先看最后成果图 如果想要全部工程 文章最后我会把github链接放上 1 分割车牌 2 分割字符 3 识别字符 最终识别的车牌号码是 浙F99999 整个车牌识别分五步 1 一个分割车牌的语义分割模型 2 用训练好DeepLab V
  • 复旦微单片机FM33LG系列之GPIO操作(FL库)

    提示 文章写完后 目录可以自动生成 如何生成可参考右边的帮助文档 文章目录 一 引用文件 二 快速IO操作指南 1 GPIO位输出高电平 2 GPIO位输出低电平 3 GPIO位输出电平翻转 4 GPIO端口8位并口输出 5 GPIO端口1
  • 数据结构之快速排序算法

    文章目录 快速排序的思想 快速排序的递归实现 快速排序的非递归实现 快速排序的思想 设置两个变量i j 排序开始的时候 令i 0 j length 1 以第一个数组元素作为比较 赋值给temp 即temp nums 0 从j开始向前扫描 找
  • 一篇了解Containerd容器运行时及安装

    文章目录 一 Containerd简介 1 什么是Containerd 2 Containerd和Docker的区别是什么 二 使用yum仓库安装Containerd 三 使用源码安装Containerd 四 配置国内镜像加速地址 一 Co
  • 寻找第K大的数的方法总结

    寻找第K大的数的方法总结 今天看算法分析是 看到一个这样的问题 就是在一堆数据中查找到第k个大的值 名称是 设计一组N个数 确定其中第k个最大值 这是一个选择问题 当然 解决这个问题的方法很多 本人在网上搜索了一番 查找到以下的方式 决定很
  • vscode 跳转到指定的行数的快捷键

    在工作中 尤其是容易产生错误的 js 代码 报错之后会提示有错误代码的位置 也就是在哪一行出问题了 在vscode 编辑器中 可以使用快捷键 跳转到指定的行数 快捷键 Ctrl G 然后在弹出的框中输入行数就可以了
  • 业务风控思考:如何建立识别、防御和决策体系?

    导语 在疫情扰乱生活节奏的三年中 经常会看到企业 降本增效 的话题 如 让员工感受寒气 搬走办公室绿植 降低食堂伙食标准等等 就企业运作成本而言 降低黑灰产 羊毛党 打码平台等 盗夺的有限资源无疑是最有效的降本方式之一 据不完全统计 我国现