p2p数据分析

2023-05-16

大数据在许多国家具有战略意义,其原因不仅在少数巨头公司的应用,而是大、中、小、微企业乃至个人,都能利用大数据来创造新的价值。而互联网本身就是一个大数据的金矿,利用它创造价值,是时代提供给我们的机遇。


时下互联网金融盛行,人们从p2p网贷中攫取收益的同时,也留下各种操作的记录(如标的明细,投标明细,评论,黑名单,各种论坛帖子等等)。通过网络爬虫技术,我们可以将这些信息采集整理,通过综合分析客观揭示网贷(公司)发展的轨迹,发现它的风险和问题,让网贷变得更加透明化,帮助平台控制风险,帮助投资人规避风险,促进网贷的健康发展。


我们能够收集的信息包括但不局限于如下方面(标的信息:金额、期限、利率、还款方式、奖励、满标时间、借款人资质信息等;投标信息:投标人、投标时间、投标金额等)


根据标的信息,我们可以测算出每笔贷款的还款时间和金额,并通过可视化的手段,初步做出如下的分析


1.网贷成交统计图


图一为一个典型案例,柱状图为表示平台的单笔借款(横轴为借款发标时间,纵轴为借款金额,发标时间太近会重叠在一起)。红色曲线为平台的累计借款金额(当日及之前的所有借款金额累加和)。我们可以发现,除少数借款标的外,平台控制单笔借款在100万元内,累计成交表现为缓慢加速增长的趋势(曲线的斜率在逐渐增加),显示网站的业务额在逐月增大。

图一、网贷成交统计图


2.待收金额及累计收支图


图二为同一家网贷平台的待收金额及累计收支图。其中蓝色柱状图部分与图一相同,黑色柱状图为预期收回金额(假设每一笔借款都按时按量返还,不存在坏账)。红色曲线为平台的累计收支(贷出的总金额-预期收回的总金额),而绿色曲线为平台待收曲线(未来要收回的贷款总金额)。我们可以看出,a位置显示网贷公司的业务在减少(可能由于农历新年导致营业时间减少,引起业务量下降。这需要与其它网贷平台的数据做比较验证),而紧接着平台的业务量开始暴增(b位置),这其中可能是因为行业周期所致,也可能是因为平台大量的投入,或者是平台降低了信审的标准(提高了风险)。


我们现在处于图二中红色曲线顶点的位置,我们可以看到,在未来的十几天里,平台的待收曲线是急剧降低的,这意味着平台有大量的资金需要收回(由于未来的每一天的待收是以当前的数据来测算的,并没有计算未来的借款标的,所以在Δt时间内绿色曲线的落差ΔM即为在Δt时间内平台要收回的还款总金额)。这时候平台的风险是很大的,因为平台需要把收回的资金及时返还给投资人,如果平台不能及时收回贷款(发生的概率可能较大),平台又无力垫付资金的时候,投资人的集中提现就会导致挤兑行为,平台提现产生困难甚至平台倒闭,投资人就可能血本无归。


图二曲线的计算方法:


待收曲线:
1.针对特定的某一天(用t表示),计算t当天及之前的所有的借款对应的还款(什么时间还多少钱);
2.将尚未发生的还款(时间大于t)的金额累加,即为t的待收金额;
3.将每一天的待收金额按照以上的方法计算出来,绘成曲线,即为图二中的绿色曲线。


平台累计收支曲线:
1.针对特定的日期t,计算t当天及之前的所有的借款及借款对应的理论还款(借款为正,还款为负);
2.将发生在t当天及之前的所有的借款和还款的金额累加起来,即为日期t的平台累计收支;
3.将每一天的平台累计收支按照以上的方法计算出来,绘成曲线,即为图二中的红色曲线。

图 二、待收及累计收支图


我们将图二b区域对应的时间段内的新增贷款中,每种期限标的的金额和占比做成饼状图(图三),我们发现其中50.6%的借款为期限二月内的借款标。75.8%的借款为三个月内的借款标。由于这些都是要在近期内偿还给理财人的,所以造成近期内贷款回收的压力很大。

图三、不同期限的标的的金额及占比


事实上在**贷的案例中(图四所示),我们就发现它的待收曲线在数据采集日(蓝色柱状图的最后一天)之后急剧下降,结果果然发生了提现困难,平台马上处于要倒闭的风头浪尖。

图四、**贷待收及累计收支图
3.日均利率及成交变化图


日均利率考量的是网贷平台的利率变化,它的计算公式为:

其中, 为日均利率, 为一天中第笔借款的金额, 为第笔借款的期限, 为第笔借款的利率。即,日均利率为一天内每笔借款利率以借款周期和金额的乘积为权重的加权平均值。


我们把日均利率和成交随时间的变化可视化出来(图五为**贷的案例)。我们发现平台在13年11月份前后利率暴涨到35%到40%(经过核查,该段时间内平台标的奖励非常高,最高到17.8%),这为它积攒了大量的人气,但平台的成交处在一个低水平(对照图四),造成平台的火爆人气,然后紧接着放量并降低利率。

图五、利率及成交变化图


4.平台借款人分析图



平台借款人分析图为我们展示了每个借款人的累计借款金额(图六),通过这张图我们能对平台的用户群做一个初步的分析。同时我们还可以根据借款用户的其它属性进行分析,此处略去。



图六中的横轴为每一个借款人,由于它们的名字在这里没有足够的空间显示,我们把他们按照借款的金额大小进行排序,以序号为横轴坐标,纵轴为借款金额。红色曲线为前面几位借款人的累计借款金额(如5即表示前5位借款人的借款之和)。我们可以看到,平台近6亿的借款资金主要借给了20位借款人,集中度高。这个时候,如果其中某一位借款人不能按时还款,就会造成很大的待收风险。

图六、平台借款人分析图


5.今日待收组成分析图


当我们评估平台的风险的时候,我们需要检查平台待收的组成,看都是哪些人欠款,这些借款标的是否有抵押等。我们把平台当前每个借款人的待收金额都计算出来,按照金额大小排序,展示在图七中。与图六类似的,前多少位借款人的累计借款金额以曲线作为展示。


我们可以据此找出欠款多的借款人,查看这些借款人的借款历史记录,分析其中的风险。

图七、今日待收组成分析




同时,我们把待收的金额按照标的类型进行。我们发现,其中大部分的为流转标,即债权人在债券到期之前,转让给他人。这表明了一半以上的债权的所有人对平台能到齐按时还款的不信任。




图八、标的类型分析



6.借款行为分析图


我们把单个借款人的借款行为和对应出的理论还款行为做成图,称为借款行为分析图。以图九为例,蓝色柱状图为借款行为(横轴为借款日期,纵轴为借款金额,借入为正),黑色柱状图为测算出的还款事件(纵轴还款为负),绿色曲线为累计借款(日期之前的所有借款金额之和),红色曲线为累计净资金流(日期之前的所有借入金额与还款金额的差值)。因为借还款的事件都是突发性的,所以这些曲线是折线而不是平滑的曲线(图九.a)。图九.b位置的折线,表示贷款人还掉一笔。而图九.c的位置中,表示他又从平台借出了一笔。那么图九.d就好理解了,在还款日,他又借了钱,保持总净借款金额基本不变。即,他很可能靠借的新债换掉了旧债(“借新还旧”)。这点特征跟庞氏骗局是非常像的。我们看到,这个借款人从2013年年初到现在,一直是借新债还旧债的。如果哪一天,他借不到钱了,又没有足够的钱还债,那么风险就来了。当然,这也可能是将长期标拆成短期的拆标行为,但这会引入同样的风险。

图九、借款行为分析图


我们设计了算法,可以自动检测一个人的借还款行为中,哪些是“借新还旧”的。例如图十中,黄色矩形所圈着的,就是检测出的借新还旧的行为。我们将某一家网贷公司的所有借新还旧的还款金额(约3.6亿)和用户自己还的还款金额都累加起来(约3.4亿),发现他有超过一半的还款都是靠借新还旧这种方式来实现的。而在共570名借款人中,有160名都存在这种借新还旧的行为。

图十、借新还旧行为检测

7.理财行为分析图



与借贷行为图类似,理财行为图展示了理财人的整个理财行为,以图十一为例,理财的资金为正(蓝色的柱状图),回款行为为负(黑色的柱状图)。累计平台出入资金为投进平台的资金和收回的资金的差额。


图十一中这个理财人前期投入的资金较多,然后资金发生了抽离,后来又增加了。这样的借款人有多次的持续的投资行为,属于平台比较稳定的资金来源。而图十二所示的用户,短期内投入60来万,然后又直接提现走人,这样的用户对平台的资金流就会带来一定的冲击。我们将一个平台的所有投资人的行为进行聚类,看看稳定的投资人有多少,冲击型的有多少,对我们分析网贷平台的资金流风险是很帮助的。

图十一、理财行为图

图十二、理财行为图



除以上的分析外,我们还在寻找更多的指标来衡量一个平台的风险程度,以求建立一个网贷大数据分析的体系。同时,更多的数据让我们可以开展网贷数据挖掘,对比平台之间的模式区别,挖掘倒闭平台的倒闭原因,预测指标的变化和发展。我们在这个方面希望能与更多的单位和个人开展合作,共同促进网贷的透明化、阳光化。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

p2p数据分析 的相关文章

  • Linux虚拟机断电后开机出现:Entering emeryency mode. Exit the shell to continue.

    在一台服务器上 xff0c 搭建了4个linux虚拟机 可是昨晚不知道怎么的 xff0c 公司断电 今早来的时候发现服务器关机了 然后开机 xff0c 启动虚拟机 xff0c 其中有一台启动不了 xff0c 提示信息如下 xff1a 解决方
  • Web标准和常用浏览器及其内核

    Web标准 Web标准是由W3C组织和其他标准化组织制定的一 系列标准的集合 W3C 万维网联盟 是国际最著名的标准化组织 Web标准的优点 xff1a 1 遵循Web标准除了可以让不同的开发人员写出的页面更标准 更统一 2 让Web的发展
  • java集合集锦_

    java集合集锦 文章目录 java集合集锦一 java集合框架图二 集合简介三 集合遍历四 Arraylist 与 LinkedList 区别 五 ArrayList 与 Vector 区别呢 六 要对集合更新操作时 xff0c Arra

随机推荐

  • java map转为实体类的方法

    一 自己定义方法 span class token keyword public span span class token keyword static span span class token generics function sp
  • oracle 一行转多行

    span class token keyword SELECT span substr span class token punctuation span PBTYPE span class token punctuation span i
  • MiroTik 路由器配置无线中继模式(超细教程)

    关于MikroTik 看一下百度百科中关于MikroTik的介绍吧 MikroTik成立于1995年 xff0c 总部位于拉脱维亚首都里加 xff0c 主要从事开发路由器和无线ISP系统 1997年RouterOS系统 xff0c 2002
  • springmvc项目,启动报错Context initialization failed

    错误描述如下 xff1a springmvc项目 tomcat启动报错 Context initialization failed org span class token punctuation span springframework
  • Spring 总结(学习+面试)

    Spring学习笔记 文章目录 Spring学习笔记1 0 概述1 1使用Spring框架的好处1 2特点 2 0体系结构3 0创建Spring java工程 xff08 eclipse xff09 4 0通过Spring创建对象的方式5
  • tomcat启动,报错Failed to start component [StandardEngine[Catalina].StandardHost[localhost]]

    严重 RMI TCP Connection 3 127 0 0 1 org apache catalina core ContainerBase addChildInternal ContainerBase addChild start o
  • chrome扩展:manifest.json文件详解

    manifest json是扩展的配置文件 xff0c 指明了扩展的各种信息 一个manifest json格式如下 xff1a 必须的字段 3 个 34 name 34 34 MyExtension 34 扩展名称 34 version
  • 检测链表中是否存在回环(Java 版)

    检测链表中是否存在回环 xff0c 这里介绍两种方法 xff1a 快慢指针 xff1b HashSet 存储原理 xff1b 1 快慢指针 快慢指针检查 xff0c 就是定义两个指针 xff0c 一个走的快 xff0c 一个走的慢 xff0
  • 通过http接口进行批量post操作(json格式)

    通过 64 Test或者main方法来进行 相关依赖 poi lt dependency gt lt groupId gt org apache poi lt groupId gt lt artifactId gt poi lt artif
  • spring容器初始化bean后执行方法

    有时 xff0c 我们需要在启动bean时初始化bean属性 xff0c 例如读取perporties文件 xff0c 对属性进行赋值 xff1b 启动容器时让某个method方法执行等等 这时需要在进行配置 xff0c 让bean在注入时
  • 4个简单有效的网页视频下载方法,超级简单好用

    有很多网站的视频是没有下载功能的 xff0c 想要下载视频怎么办呢 xff1f 今天就分享给大家4个简单有效的网页视频下载方法 xff0c 多个平台都适用 xff0c 而且操作简单 xff0c 一看就会 xff01 一 审查元素下载 一个简
  • iptables详解

    5链 INPUT OUTPUT PREROUTING FORWARD POSTROUTING INPUT OUTPUT gt PREROUTING gt 是否为本机 gt FORWARD gt POSTROUTING gt 其他主机 所以
  • 浅谈一致性哈希算法 consistent hashing

    接触过分布式的小伙伴一定对一致性哈希算法这个词语不陌生 xff0c 那么到底什么是一致性哈希算法呢 xff1f 了解一致性哈希算法之前我们先了解下哈希取模 假设我们有三台服务器 xff0c 缓存3万张图片 当然我们可以均匀的分配到每个服务器
  • ubuntu20.04启用SSH

    新安装的ubuntu20 04默认是没有开启ssh的 xff0c 所以无法使用ssh登录系统 1 安装openssh server span class token function sudo span span class token f
  • 密码生成器

    import random def Range get num alist listout 61 while num gt 0 listout append alist random randint 0 len alist 1 num 61
  • centos7安装oracle中遇到的常见问题解决方法

    1 安装图形界面 yum y install gnome 2 安装vnc server yum y install vnc server vncpasswd 设置密码 vncserver启动vnc windows安装vnc客户端客户端 通过
  • java中keytool生成的jks证书转换为openssl格式证书

    一 通常jks文件包含了服务器的私钥 server key xff0c 服务器证书 server crt 根证书 ca crt 二 通过java的keytool工具导出成 PKCS12 格式文件 my p12 keytool importk
  • IBMX3650M4安装win2008Server操作指南

    IBMX3650M4安装win2008Server操作指南 由于IBM服务器是IBM原有的Linux系统 xff0c 所以需要在此硬件上安装Win 2008 Server系统 xff08 以下简称win8 xff09 xff0c 中间遇到了
  • windows远程桌面连接到服务器黑屏问题

    任务管理器使用组合键 Ctrl 43 Alt 43 End xff0c 于是打开了远程电脑的任务管理器 xff0c 取消 xff0c 即可返回桌面正常显示
  • p2p数据分析

    大数据在许多国家具有战略意义 xff0c 其原因不仅在少数巨头公司的应用 xff0c 而是大 中 小 微企业乃至个人 xff0c 都能利用大数据来创造新的价值 而互联网本身就是一个大数据的金矿 xff0c 利用它创造价值 xff0c 是时代