常识 让世界充满AI

2023-05-16

-5、https://sci-hub.cc   下载论文

-4、问题 等于 机遇 。 问题抽象为可以解决执行的问题,例如:自动驾驶,细化为特定场景下的自驾车,如观光车,公交车等。    公司的核心是数据。

-3、控制论是人工智能的雏形。  机器学习(1990-至今)。机器人是一个算法,一段代码。

-2、查看电脑使用内存和CPU:状态栏右键 任务管理器 性能

-1、一次随机逻辑回归选进模型的13个变量,iv从0.06到0.19不等,缺失率从21%到79%不等,KS=24(KS值是在模型中用于区分预测正负样本分隔程度的评价指标。一般不能低于30,低于30说明模型区分好坏的能力就是太弱了。)。删除相关系数>0.5的5个变量后,KS还是24。

随机逻辑回归rlr每次选择变量的结果可能有细小的差异。

PCA将2000+变量降维到11后,用逻辑回归建模,KS由不降维的31%降低到20%。

变量数太多容易过拟合,如100以上;太少容易欠拟合;20几个变量,可以权衡。

0、样本数不到500,iv出现了>0.3,但是WOE没规律。现在看来,命中样本数至少两三千,可以得到较好的iv和woe。

1、信用卡套现:套出现金。


正常的信用卡消费是刷卡付帐,得到商品,你再去银行还欠款.
刷信用卡后,商家直接把刷卡金额以现金的方式给你,之后你再去银行还信用卡欠款。  

2、样本数量的选取  

较小规模 <1千  选30%样本  

中等规模 <15万  选10%样本  

大规模 >15万 选1%

非常大规模 >1000万  选0.025%

3、编码转换

notepad++   格式->转utf-8编码为无BOM编码格式

4、linux操作 运行bash文件

cd /home/lilu/tmp_0505;

bash tmp_all.sh

5、linux操作2

mysql -utel_manage_user -ptel_manage_passwd -Ddb_tel_manage -N -e "select keyword,keyword_type from dun_template_keyword" > key_word_list.txt

6、linux操作3

合并test文件夹下0开头的文件后,传到python程序中运行,结果输出到目标文件cat test/0* |python new_rule1.py > result_01

5、编辑-文档格式转换-转换为UNIX格式

将windows格式文件转换为unix格式

6、 某变量的VIF越大,说明该变量与其他变量越有可能存在共线性

7、a loga 的iv结果一样;数值变量转化为是否变量,iv可能会高;两个本来0.1的变量,相加的结果的iv可能会高。

iv高,相关性不一定高。corr 默认是皮尔森系数。[0,0.3]不存在线性相关;(0.3,0.5]低度线性相关;(0.5,0.8]显著线性相关;高度线性相关。

覆盖度低,不到10%,iv不会高,0.05以下。MaxOrgType=1,bad占比15/31,但是iv=0.015,因为命中率低。

变量做加减乘除,iv变化都不一定的,但是比如TNumsCon_undun=dtlNums-TNumsCon与dtlNums的斯皮尔曼相关系数是1,完全相关;TNumsCon/dtlNums与TNumsCon相关系数是0.6,但是前者的iv=0.12,后者的iv=0.05

移除VIF大于5的变量在填好WOE之后。

python rlr筛选变量,筛得到了vif<10的变量。

WOE接近0,表示该组内的样本和总体样本好坏比例相当。WOE单调或者一个波峰或波谷可以接受。

1:最大似然估计值分析:Pr>卡方值(参数估计的p值):表示不该纳入模型的概率 

p>0.3的变量要移出模型
2:优比估计值:观察置信限是否包含1,若包含1,表示在给定的置信限内,无法确认变量是否能够提高模型值,判断变量对模型的贡献度很低
ln点估计值的对数=模型的参数值(不接近0好)所以,点估计值不接近1好
3:训练集KS=0.5正常,测试集降到0.25
4:在命中的申请人50%上算基于催收号码的变量的iv,0.2左右的很多;在全量申请人上基于催收号码的变量的iv,只有0.1左右。iv跟覆盖度密切相关。

5:泰坦尼克:女性和男孩(男性、年龄<10)存活率高;男性、Pclass=1存活率高。

6、假设检验:t检验(检验数据总体均值为0时t统计量的值0)  prt:数据总体均值为0的概率是多少。

7、选1-R^2小的变量:分母是与其他类的差异,分子是与自己内部的差异。

8、评价模型:R^2;Hosmer-Lemeshow检验;

一、单变量统计特性和图形分布

检查缺失值,极端值;极端值超过总体10%,考虑分群独立建模;极端值可用缺失值、中位数、均值、删除等替代处理。

连续变量的正常取值范围为均值+-3倍标准差。

名义变量建议将频数低的类别合并为一个新的类别。

二、变量与y、其他变量之间是否存在相关性、关联性

两个连续变量的相关性:皮尔森系数(数据极端值会影响结果),斯皮尔曼系数(用等级代替具体数值,所以数据极端值不影响结果)     接近1,相关。

有的变量Spearman相关系数,比皮尔森系数还高,也有比Kendall系数高的。所以这三个相关系数间不存在肯定的大小关系。

两个名义变量的相关性:列联表,皮尔森卡方统计量(Chi-Square)  P值接近0,相关

两个二元名义变量的相关性:概率比        检查置信区间不包含1。接近1,相关。


KS计算:


AUC计算:

SVM分类效果图:


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

常识 让世界充满AI 的相关文章

  • 光立方完全解析

    转载请注明出处 xff1a http blog csdn net ruoyunliufeng article details 37903899 这个4 4 4的三色光立方是我在初学单片机的时候做的一个小项目 很适合给初学单片机和C语言的同学
  • 远程视频监控之应用篇(mjpg-streamer)

    转载请注明出处 xff1a http blog csdn net ruoyunliufeng article details 38515311 这篇文章将主要结合源码介绍mjpg streamer xff0c 使小伙伴们了解视频监控的实现
  • Matplotlib 入门(三):多图合并

    一 多合一显示 1 subplot方法 xff1a 设置行 列和起始点 plt subplot 2 1 1 分成两行一列 xff0c 起始点为1 2 代码 coding utf 8 34 34 34 Created on Sun Sep 2
  • python毫秒级延时

    一 毫秒延时 近期有一个ms级别延时的需求 xff0c 实际测试了一下 xff0c 环境 xff1a win7 64位 xff0c python2 7 13 结果 xff1a 毫秒级别的延时是能够支持的 xff0c 微妙是不支持的 二 de
  • 数据分析之乳腺癌预测

    零 定义问题 1 1 数据介绍 http archive ics uci edu ml machine learning databases breast cancer wisconsin breast cancer wisconsin n
  • px4通过mavros+wifi+板载计算机连接地面站

    px4通过mavros 43 wifi 43 板载计算机连接地面站 https blog csdn net zouxu634866 article details 106835967
  • 关于mongodb占用内存过大的问题

    一 现象 最近发现自己服务器内存越来越少 xff0c 查了一下原来是部署的mongodb使用内存在线性增加 不查不知道 xff0c 一查吓一跳 xff0c 竟然占用了3G的内存 二 分析 1 内存增加的原因 mongo为了优化他的读写效率
  • 软件开发生命周期-3-每个阶段的输入输出

    记录下一点自己的心得体会 xff0c 分享给大家 xff0c 有不足之处 xff0c 望指教 第一阶段 xff1a 假想阶段 本阶段是整个软件开发的开始阶段 xff0c 输入可以是为了提高工作效率的某个好的想法或者是公司领导为了帮助管理发出
  • 【HP Cloud Recovery+暗影精灵4】 换固态+恢复惠普原厂系统

    软件工程专业 xff0c 电脑里自然会安装各种软件 用了一年零几个月 xff0c 不插电开机后进入桌面后得等一会儿才能打开应用程序 xff1b 插电开机稍微快一点 xff0c 但是文件管理有时会崩溃 趁着处于假期 xff0c 于是决定换个固
  • Jetson TX2 安装 Realsense D435 SDK

    Jetson TX2 安装 Realsense D435 SDK 一 主要内容 Jetson TX2 重装系统重建内核并安装SDK 二 Jetson TX2 重装系统 三 重建内核并安装SDK realsense官方提供的SDK安装方法无法
  • Nuxt 状态保持

    最近工地没啥砖头搬 找找可以研究的地方 业务需求在Nuxt的SSR状态下 需要记录用户的登录状态 状态保持有两种方案 1 使用vuex persistedstate将本地缓存的数据和vuex的数据合并 只能在客户端内拿到token状态 2
  • C++:类和对象: 友元

    概念 1 xff1a 程序中 xff0c 某个类的私有属性 可以让类外 一些特殊函数或者类进行访问 xff0c 这个就是友元技术 2 有元的关键字是 xff1a friend 3 xff1a 友元的三种实现 xff1a 全局函数做友元 类做
  • C++笔试题目大全

    1 new delete malloc free 关系 delete 会调用对象的析构函数 和 new 对应 free 只会释放内存 xff0c new 调用构造函数 malloc 与 free 是 C 43 43 C 语言的标准库函数 x
  • 视觉里程计(VisualOdometry)原理及实现

    一 视觉里程计 VisualOdometry 介绍 目前 xff0c 有不止一种方式可以确定移动机器人的轨迹 xff0c 这里将重点强调 视觉里程计 这种方法 在这种方法中 xff0c 单个相机或者双目相机被用到 xff0c 其目的是为了重
  • 布谷鸟算法详细讲解

    今天我要讲的内容是布谷鸟算法 xff0c 英文叫做Cuckoo search CS algorithm 首先还是同样 xff0c 介绍一下这个算法的英文含义 xff0c Cuckoo是布谷鸟的意思 xff0c 啥是布谷鸟呢 xff0c 是一
  • Linux c socket 实现http

    include lt stdio h gt include lt sys socket h gt include lt sys types h gt include lt time h gt include lt errno h gt in
  • 在latex中自动调整单词换行

    在latex中自动调整单词换行 xff0c LaTeX 特殊符号 加帽子符号 横线和波浪线 LaTeX 特殊符号 加帽子符号 横线和波浪线 xff1a https blog csdn net qq 17528659 article deta
  • 磁力机航向角计算与补偿

    地理坐标系下该点的磁场强度为 xff08 M 0 xff0c D xff09 xff0c 磁力计测得的三轴磁场强度为 xff08 mx my mz xff09 当我们认为飞机是完全水平放在地上的时候 xff0c 即Z轴和Zb轴是平行的时候

随机推荐

  • 自定义串口通信协议

    原题叙述 有若干个温度采集器 xff0c 每个温度采集器可实现8路温度的测量 试设计一个通信协议 xff0c 用于温度采集器与上位计算机的串行通信协议 xff0c 可实现温度采集数据上传 上位机控制每路温度测量通的开启功能 作业提交方式 x
  • APM:参数设置与启动

    APM agent 参数 Delastic apm service name 61 my test service Delastic apm application packages 61 com yiz Delastic apm serv
  • matlab入门4-mdlInitializeSizes解析

    文章目录 1 DirFeedthrough的设置2 DirFeedthrough的帮助文档3 参考链接 xff1a 1 DirFeedthrough的设置 sizes DirFeedthrough 61 0 1 简而言之 xff0c 只要在
  • 一个JAVA程序员成长之路分享

    我搞JAVA也有些日子了 因为我比较贪玩 上进心不那么强 总是逼不得已为了高薪跳槽才去学习 所以也没混成什么大牛 但好在现在也已经成家立业 小日子过的还算滋润 起码顶得住一月近万元的吃喝拉撒玩各种贷款信用卡 不为金钱过于发愁了 我特别感谢当
  • VIPER架构学习

    VIPER架构学习探索 编程准则资源下载什么是VIPER功能快捷键合理的创建标题 xff0c 有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中 居左 居右SmartyPan
  • NVIDIA JETSON NANO三个版本核心的对比

    A02开发板目前还是在售状态 xff0c 不过不香了 2020年的新货B01版本支持NANO的商业版本16G EMMC那个 xff0c 也支持NX 价格799人刀还是依然和老版本很接近 香 NX和B01版本的NANO核心模块是pin 2 p
  • NVIDIA JETSON XAVIER NX TX2 NANO 比较及与显卡算力对比

    以上数据来源 xff1a CUDA GPU分数 xff0c GPU计算能力 Compute Capability 主要指GPU能够支持的计算类型的版本 xff0c 可以作为评估算力的主要参考 详细的各个版本的不同请查看CUDA Comput
  • JETSON NANO/TX2-NX/NX 商用模组的官方廉价2gb底板跑起来

    文章目录 前言一 NANO 2GB开发板的载板介绍二 性能对比总结 前言 去年 xff0c NVIDIA JETSON NANO NX XVAIER的开发板因为芯片上涨 AI大热 NVIDIA原厂断货等原因 xff0c NANO 2GB的开
  • VINS的折腾之路

    一直从事室内定位相关 xff0c 之前的研究方向都是惯性导航和滤波 xff0c 现在发现基于视觉能够和移动端的这些原有方法做很好的结合 xff0c 所以开始研究vins这个方向 xff0c 主要希望能在移动端上和原有技术结合 xff0c 完
  • 双系统装完之后,Ubuntu系统连不上WIFI的问题

    双系统装完之后 xff0c Ubuntu系统连不上WIFI的问题 产生该问题的一个原因是由于Ubuntu系统没有无线网卡驱动 在Ubuntu系统下 xff0c 使用命令 lshw C network 查询网卡状态 xff0c 查询结果分为两
  • Ubuntu系统安装分区

    一 U盘启动盘制作 1 U盘一个 xff0c U盘空间大小足够大 xff0c 8G够用了 xff0c U盘里面的内容提前转存备份 xff1b 2 UltraISO软碟通启动制作工具或Universal USB Installer xff1b
  • PyTorch查看网络模型的参数量params和FLOPs等

    在PyTorch中 xff0c 可以使用torchstat这个库来查看网络模型的一些信息 xff0c 包括总的参数量params MAdd 显卡内存占用量和FLOPs等 使用前需要先安装torchstat包 xff0c 如下 xff1a p
  • Ubuntu服务器nvidia-smi刷新慢的问题解决

    新安装了nvidia驱动之后 xff0c 通过nvidia smi命令查看显卡使用情况 xff0c 需要等1s多 xff0c 刷新很慢 可通过如下命令解决 xff1a sudo nvidia persistenced persistence
  • 如何将两层板设置成4层板

    在使用Altium Designer 画PCB时 xff0c 多数时候画双面板的比较多 xff0c 但有时抗信号干扰要求更高的情况下 xff0c 可能会设计四层板或者更多层板 xff0c 下面以Altium Designer14软件为例 x
  • debian 无法使用apt-get解决办法

    刚装完debian xff0c 发现直接apt get是用不了的 xff0c 系统会提示你插入DVD xff0c 其实是源的配置问题 xff0c 只需要在apt的源里面修改下配置就可以了 打开apt源文件 sudo vi etc apt s
  • k8s 设置Node节点驱逐pod的时间

    官方api server参数具体作用 官方kube controller manager 参数具体作用 官方kubelet参数具体作用 官方kubelet参数具体作用 以下调整是需要加入到集群中的 xff0c 最后效果验证pod的迁移时间为
  • rabbit mq研究(三)rabbitmq_management介绍

    rabbitmq management默认地址为 xff1a http ip 15672或http ip 55672 xff0c 如下图 xff1a 用户名默认有guest xff0c 密码为guest xff0c 可以使用命令增加其他用户
  • 本文利用matlab创建了一个小型数据库写入excel用于调用

    项目描述 xff1a
  • stm32工程需要哪些文件

    stm32比51要复杂一些儿 xff0c 所以工程文件可能要复杂一些 上图由官方给出 xff0c 可见一个工程项目 xff0c 需要有如下三个大类 xff1a cmsis files xff1a Cortex Microcontroller
  • 常识 让世界充满AI

    5 https sci hub cc 下载论文 4 问题 等于 机遇 问题抽象为可以解决执行的问题 xff0c 例如 xff1a 自动驾驶 xff0c 细化为特定场景下的自驾车 xff0c 如观光车 xff0c 公交车等 公司的核心是数据