常识 让世界充满AI

2023-05-16

-5、https://sci-hub.cc   下载论文

-4、问题 等于 机遇 。 问题抽象为可以解决执行的问题,例如:自动驾驶,细化为特定场景下的自驾车,如观光车,公交车等。    公司的核心是数据。

-3、控制论是人工智能的雏形。  机器学习(1990-至今)。机器人是一个算法,一段代码。

-2、查看电脑使用内存和CPU:状态栏右键 任务管理器 性能

-1、一次随机逻辑回归选进模型的13个变量,iv从0.06到0.19不等,缺失率从21%到79%不等,KS=24(KS值是在模型中用于区分预测正负样本分隔程度的评价指标。一般不能低于30,低于30说明模型区分好坏的能力就是太弱了。)。删除相关系数>0.5的5个变量后,KS还是24。

随机逻辑回归rlr每次选择变量的结果可能有细小的差异。

PCA将2000+变量降维到11后,用逻辑回归建模,KS由不降维的31%降低到20%。

变量数太多容易过拟合,如100以上;太少容易欠拟合;20几个变量,可以权衡。

0、样本数不到500,iv出现了>0.3,但是WOE没规律。现在看来,命中样本数至少两三千,可以得到较好的iv和woe。

1、信用卡套现:套出现金。


正常的信用卡消费是刷卡付帐,得到商品,你再去银行还欠款.
刷信用卡后,商家直接把刷卡金额以现金的方式给你,之后你再去银行还信用卡欠款。  

2、样本数量的选取  

较小规模 <1千  选30%样本  

中等规模 <15万  选10%样本  

大规模 >15万 选1%

非常大规模 >1000万  选0.025%

3、编码转换

notepad++   格式->转utf-8编码为无BOM编码格式

4、linux操作 运行bash文件

cd /home/lilu/tmp_0505;

bash tmp_all.sh

5、linux操作2

mysql -utel_manage_user -ptel_manage_passwd -Ddb_tel_manage -N -e "select keyword,keyword_type from dun_template_keyword" > key_word_list.txt

6、linux操作3

合并test文件夹下0开头的文件后,传到python程序中运行,结果输出到目标文件cat test/0* |python new_rule1.py > result_01

5、编辑-文档格式转换-转换为UNIX格式

将windows格式文件转换为unix格式

6、 某变量的VIF越大,说明该变量与其他变量越有可能存在共线性

7、a loga 的iv结果一样;数值变量转化为是否变量,iv可能会高;两个本来0.1的变量,相加的结果的iv可能会高。

iv高,相关性不一定高。corr 默认是皮尔森系数。[0,0.3]不存在线性相关;(0.3,0.5]低度线性相关;(0.5,0.8]显著线性相关;高度线性相关。

覆盖度低,不到10%,iv不会高,0.05以下。MaxOrgType=1,bad占比15/31,但是iv=0.015,因为命中率低。

变量做加减乘除,iv变化都不一定的,但是比如TNumsCon_undun=dtlNums-TNumsCon与dtlNums的斯皮尔曼相关系数是1,完全相关;TNumsCon/dtlNums与TNumsCon相关系数是0.6,但是前者的iv=0.12,后者的iv=0.05

移除VIF大于5的变量在填好WOE之后。

python rlr筛选变量,筛得到了vif<10的变量。

WOE接近0,表示该组内的样本和总体样本好坏比例相当。WOE单调或者一个波峰或波谷可以接受。

1:最大似然估计值分析:Pr>卡方值(参数估计的p值):表示不该纳入模型的概率 

p>0.3的变量要移出模型
2:优比估计值:观察置信限是否包含1,若包含1,表示在给定的置信限内,无法确认变量是否能够提高模型值,判断变量对模型的贡献度很低
ln点估计值的对数=模型的参数值(不接近0好)所以,点估计值不接近1好
3:训练集KS=0.5正常,测试集降到0.25
4:在命中的申请人50%上算基于催收号码的变量的iv,0.2左右的很多;在全量申请人上基于催收号码的变量的iv,只有0.1左右。iv跟覆盖度密切相关。

5:泰坦尼克:女性和男孩(男性、年龄<10)存活率高;男性、Pclass=1存活率高。

6、假设检验:t检验(检验数据总体均值为0时t统计量的值0)  prt:数据总体均值为0的概率是多少。

7、选1-R^2小的变量:分母是与其他类的差异,分子是与自己内部的差异。

8、评价模型:R^2;Hosmer-Lemeshow检验;

一、单变量统计特性和图形分布

检查缺失值,极端值;极端值超过总体10%,考虑分群独立建模;极端值可用缺失值、中位数、均值、删除等替代处理。

连续变量的正常取值范围为均值+-3倍标准差。

名义变量建议将频数低的类别合并为一个新的类别。

二、变量与y、其他变量之间是否存在相关性、关联性

两个连续变量的相关性:皮尔森系数(数据极端值会影响结果),斯皮尔曼系数(用等级代替具体数值,所以数据极端值不影响结果)     接近1,相关。

有的变量Spearman相关系数,比皮尔森系数还高,也有比Kendall系数高的。所以这三个相关系数间不存在肯定的大小关系。

两个名义变量的相关性:列联表,皮尔森卡方统计量(Chi-Square)  P值接近0,相关

两个二元名义变量的相关性:概率比        检查置信区间不包含1。接近1,相关。


KS计算:


AUC计算:

SVM分类效果图:


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

常识 让世界充满AI 的相关文章

  • Axure基础:事件和动态面板

    这一篇文章我们主要是将如何做系统左侧的导航 xff0c 并且告诉大家如何动态的切换各个页面 一 事件 1 事件基础 事件的核心就是什么时候做什么事 其中的什么时候可以是如下 xff1a 能做的事情如下 xff1a 2 远程监控云中的事件 监
  • 设备联网调试三板斧

    在实际的工业互联网项目中 xff0c 设备联网所占的比重越来越大 有的一期项目为了简单快速上线 xff0c 让客户直观体会到工业互联网的效果 xff0c 直接会把设备联网放在一期项目的重点 那么在做此类项目时 xff0c 设备联网调试就显得
  • 光立方完全解析

    转载请注明出处 xff1a http blog csdn net ruoyunliufeng article details 37903899 这个4 4 4的三色光立方是我在初学单片机的时候做的一个小项目 很适合给初学单片机和C语言的同学
  • 远程视频监控之应用篇(mjpg-streamer)

    转载请注明出处 xff1a http blog csdn net ruoyunliufeng article details 38515311 这篇文章将主要结合源码介绍mjpg streamer xff0c 使小伙伴们了解视频监控的实现
  • Matplotlib 入门(三):多图合并

    一 多合一显示 1 subplot方法 xff1a 设置行 列和起始点 plt subplot 2 1 1 分成两行一列 xff0c 起始点为1 2 代码 coding utf 8 34 34 34 Created on Sun Sep 2
  • python毫秒级延时

    一 毫秒延时 近期有一个ms级别延时的需求 xff0c 实际测试了一下 xff0c 环境 xff1a win7 64位 xff0c python2 7 13 结果 xff1a 毫秒级别的延时是能够支持的 xff0c 微妙是不支持的 二 de
  • 数据分析之乳腺癌预测

    零 定义问题 1 1 数据介绍 http archive ics uci edu ml machine learning databases breast cancer wisconsin breast cancer wisconsin n
  • 关于mongodb占用内存过大的问题

    一 现象 最近发现自己服务器内存越来越少 xff0c 查了一下原来是部署的mongodb使用内存在线性增加 不查不知道 xff0c 一查吓一跳 xff0c 竟然占用了3G的内存 二 分析 1 内存增加的原因 mongo为了优化他的读写效率
  • 软件开发生命周期-3-每个阶段的输入输出

    记录下一点自己的心得体会 xff0c 分享给大家 xff0c 有不足之处 xff0c 望指教 第一阶段 xff1a 假想阶段 本阶段是整个软件开发的开始阶段 xff0c 输入可以是为了提高工作效率的某个好的想法或者是公司领导为了帮助管理发出
  • make settings时编译报错:dalvik/dx/bin/Android.bp:24:1: module “dx-doc-stubs“ already defined

    FAILED out soong build ninja cd KaTeX parse error Expected 39 EOF 39 got 39 amp 39 at position 51 soong build 34 34 amp
  • Linux下7z压缩解压软件区别

    本文首发于个人博客 xff0c 文章链接为 xff1a https blog d77 xyz archives 4744f068 html 最近需要在 Ubuntu下用 7z 来压缩点东西 xff0c 发现 Ubuntu 默认没有安装 7z
  • FMC接口说明

    FMC介绍 FMC是英文FPGA Mezzanine Card FPGA 夹层卡 的缩写 xff0c 用于FPGA IO和通讯部件之间的连接 实现FPGA具有重配置IO能力的引脚与其他的FMC子卡IO连接 其信号完整性可以保证高达几G bp
  • win10开机为“其他用户”无法登录,及系统登录账户没有管理员权限无法安装软件解决方案

    win10开机为 其他用户 无法登录 xff0c 及系统登录账户没有管理员权限无法安装软件解决方案 开机为 其他用户 无法进入系统无须重装系统 解决方案注意不要漏了管理员权限 xff0c 笔者在给系统加上本地账户之后忘记加管理员权限了 xf
  • java日志之log4j、log4j2、slf4j

    本文从整体视角分析 xff0c 重在帮助初学者了解log4j log4j2之间的关系 以及与slf4j整合时使用的中间jar包 xff1a slf4j log4j12 log4j slf4j impl 1 Log4j log4j核心包只有一
  • Spring框架中的IOC容器及bean管理

    这篇文章讲述的是Spring框架中的IOC容器及bean管理 xff0c 如有错误或者不当之处 xff0c 还望各位大神批评指正 什么是IOC容器 xff1f IOC即反转控制 xff0c 创建对象的权利交给容器来完成 xff0c 而程序要
  • 磁力机航向角计算与补偿

    地理坐标系下该点的磁场强度为 xff08 M 0 xff0c D xff09 xff0c 磁力计测得的三轴磁场强度为 xff08 mx my mz xff09 当我们认为飞机是完全水平放在地上的时候 xff0c 即Z轴和Zb轴是平行的时候
  • Decorators 装饰器

    预备知识 xff1a args的使用方法 xff0c args 用来将参数打包成tuple给函数体调用 例子一 xff1a span class token operator gt gt span span class token oper
  • 一个JAVA程序员成长之路分享

    我搞JAVA也有些日子了 因为我比较贪玩 上进心不那么强 总是逼不得已为了高薪跳槽才去学习 所以也没混成什么大牛 但好在现在也已经成家立业 小日子过的还算滋润 起码顶得住一月近万元的吃喝拉撒玩各种贷款信用卡 不为金钱过于发愁了 我特别感谢当

随机推荐

  • 「Jenkins Pipeline」- 执行 Shell 命令 @20210203

    问题描述 Jenkins Pipeline xff0c 更像 胶水 xff0c 将很多脚本与工具粘合在一起 xff0c 实现自动化任务 xff0c 而它本身并没有提供特定功能 执行 Shell 命令或者脚本是个非常常见的任务 该笔记将记录在
  • 「snap」- ERR - Waiting for automatic snapd restart @20210208

    问题描述 使用 snap 安装 chromium 浏览器时出现如下错误 xff0c 并一直卡住 xff1a 2020 08 21T16 56 10Z INFO Waiting for automatic snapd restart 问题原因
  • 锁屏时间格式不随多用户的时间格式变化而变化?

    背景 xff1a 时间格式有12 24小时制 xff0c 系统设置时间格式之后 xff0c 状态栏和锁屏的时间显示也会相应的发生变化 xff0c 但是现在发现一个问题 xff1a 当我切换到多用户设置时间格式的时候发现 xff0c 状态栏的
  • R语言利用igraph和networkD3包快速入门做出炫酷的社交网络图等几类图。

    原来CDSN编辑器老出问题 xff0c 图片各种显示不好 xff08 老文章依然是原来编辑器 xff09 xff0c 又将本文整理了一遍地址 1 igraph包绘制社交关系图 xff08 也有叫知识图谱的 xff09 绘图的快速入门技巧是三
  • 「Shell」- 判断字符串结尾 @20210209

    下面围绕 判断字符串是否以 txt结尾 展开 转变一下也同样适用于 判断字符串是否以 txt开头 通用的方法 方法一 使用grep命令 bin sh str 61 34 path to foo txt 34 使用if语句 if echo 3
  • 「Firefox」- 在地址栏中,显示二维码 @20210211

    问题描述 在以前某些版本的 Firefox 中 xff0c 地址栏会显示当前地址的二维码 xff0c 再后便消失 xff08 可能功能被取消 xff09 现在 xff08 02 10 2021 xff09 xff0c 我们需要在地址栏中显示
  • 「GNOME 3」- 修改 Topbar 字体(顶部栏字体)、调整默认主题 @20210211

    问题描述 在 GNOME 3 中 xff0c 在进行字体设置时 xff0c 我们发现 Topbar 的字体没有修改 xff0c 因此窗口字体与 Topbar 字体不同 经过搜索 xff0c 我们知道 xff0c Topbar 的字体是主题负
  • 「KVM」- 常见错误及注意事项 @20210223

    启动错误 1 vmport is not available with this QEMU binary 问题描述 xff1a 启动Guest时产生如下错误 xff1a error unsupported configuration vmp
  • 「Jumpserver」- 通过 SSH 连接 Jumpserver 资产 @20210302

    问题描述 在通常情况下 xff0c 我们会通过 Web 界面访问资产 执行命令 xff0c 以进行服务器管理 但是 xff0c 有时候我们也需要通过 SSH 客户端连接服务器 Jumpserver 提供对此的支持 该笔记将记录 xff1a
  • 「Selenium」- 在页面中,点击按钮(或元素) @20210311

    问题描述 该笔记将记录 xff1a 在 Selenium 中 xff0c 如何使用代码点击按钮 xff0c 以及常见问题处理 解决方案 使用 click 点击 通常点击元素使用 click 方法即可 xff1a 选择元素并进行点击 webD
  • 「Linux」- 安装网易云音乐(Neteast Cloud Music) @20210330

    问题描述 我们想在 Ubuntu 20 04 LTS 中安装网易云音乐 xff08 Neteast Cloud Music xff09 xff0c 自然是用来播放音乐 该笔记将记录 xff1a 在 Debian 及衍生版 xff08 比如
  • LaTex | 导出 PNG 图片

    问题描述 我们需要将 LaTeX 文档转换为 PNG 图片 xff08 我们需要使用 LaTeX 的 bytefield 包绘制 字节序列图 xff0c 以在 Zim 中显示 xff09 该笔记将记录 xff1a 如何使用 tex 文件 x
  • Linux:邮箱客户端

    原文地址 xff1a Linux xff1a 邮箱客户端 xff08 永久地址 xff0c 保存网址不迷路 x1f643 xff09 问题描述 我们最开始使用 Thunderbird 邮件客户端 xff0c 但是在 GNOME 3 中当收到
  • Synergy : 多电脑共享鼠标和键盘

    原文地址 xff1a Synergy 多电脑共享鼠标和键盘 xff08 永久地址 xff0c 保存网址不迷路 x1f643 xff09 注意事项 目前 xff08 09 28 2020 xff09 xff0c 建议使用 Barrier xf
  • eslint常用

    0 xff0c 1 xff0c 2分别表示off warning error三个错误级别
  • Kubernetes Objects│Service

    原文地址 xff1a Kubernetes Objects Service xff08 永久地址 xff0c 保存网址不迷路 x1f643 xff09 Service xff0c 服务 xff0c 用于暴露 Pod 以供访问 官方文档及手册
  • draw.io - 安装

    原文地址 xff1a draw io 安装 xff08 永久地址 xff0c 保存网址不迷路 x1f643 xff09 问题描述 我们没有采用自建 draw io 服务 xff0c 而是使用它的客户端 jgraph drawio deskt
  • Android网络优先级及更改

    Android版本 xff1a Android 4 4 4 涉及内容 xff1a 1 xff0c 网络优先级 xff1b 2 xff0c 网络切换 xff1b 3 xff0c 界面显示 解决问题 xff1a 1 xff0c 更改网络优先级
  • Java生产者、消费者模式的几种实现方式

    文章目录 方式一 xff1a BlockingQueue方式 最优方式 方式二 xff1a Synchronized 43 wait notifyAll方式方式三 xff1a ReentrantLock 43 Condition方式几种方式
  • 常识 让世界充满AI

    5 https sci hub cc 下载论文 4 问题 等于 机遇 问题抽象为可以解决执行的问题 xff0c 例如 xff1a 自动驾驶 xff0c 细化为特定场景下的自驾车 xff0c 如观光车 xff0c 公交车等 公司的核心是数据