[中奖]第九届“泰迪杯”挑战赛A题

2023-11-13

问题概述

题目¹如下：

在这里插入图片描述

赛题有2个点，分别是：

确定数据指标

即确定哪些特征是决定财务造假与否的关键特征
预测造假公司

训练模型，然后跑测试数据即可

预处理

首先使用missingno²，对全局数据进行观测，看一看缺失值等情况
然后删去无用的特征列
删去缺失值占比过多的特征列
使用pd.interpolate()³对缺失值占比较小的特征列进行补充，也可以参考⁴⁵

第一题

最开始的想法是直接跑树模型，然后看看谁的权重大就选谁，然而问题出在样本比例上。

首先对整体来看，正样本的数量远远大于负样本。不均衡的情况下，树模型虽然有所缓解，但估计还是够呛
更惨的是，第一题要求的是各行业的财务造假关键指标。数据一共几十个行业，有些行业没有造假，全是正样本。这样的情况无法用树模型处理，其他模型也不行。

后来查到了一个方法，Null Importances⁶⁷⁸。

其思路大概是，先用正确的标签计算一下各个特征对于分类的重要性，然后打乱标签，再计算特征的重要性。如果一个特征真的对分类有用，那么他应该在真实的标签下展示高重要性，而在错误的标签下展示低重要性。

对于第一题而言，我们分两类情况来考虑：

对于整个行业没有造假记录的数据来说：

先对各个数值特征（好像所有的特征都是数值特征？）计算方差，取方差较小的特征为重要特征。因为该行业没有造假，所以其与造假相关的特征应当表现出聚集的趋势，即都没有造假，也就是方差较小的特征。然后随机赋予标签，计算其互信息⁹（mutual_info_classif）。然后用前一个的特征集合减去后一个的特征集合，留下的即为关键特征。
对于整个行业有造假记录的数据来说

先对正确的标签计算互信息⁹，然后随机赋予标签，再计算其互信息⁹。取两者的差集为关键特征。

第二题

这一题将数据分成了2个行业，制造业和非制造业。虽然样本还是很不均衡，但至少，正负样本都有。

首先进行特征选择，使用LinearSVC¹⁰
然后将数据丢进模型训练，并使用网格调参¹¹
最后走一遍stacking¹²¹³

后记

其实模型训练的结果并不乐观，因为样本分布的不均衡。后来有一些其他想法：

在模型融合的时候，加大树模型的权重，因为树模型对分布不均衡有所缓解
使用一些其他方法补充数据，例如SMOTE等¹⁴

啊，对了，我当时参考博文¹⁵，用pandas-profiling还跑崩了¹⁶，数据太多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

[中奖]第九届“泰迪杯”挑战赛A题的相关文章

pip&conda 搜索包

1 pip搜索包 pip search已经停用需要安装pip search包 gt pip install pip search gt pip search numpy https pypi org search q numpy
构造方法私有化

1 单例设计模式 Singleton 在正常情况下如果有一个类那么只有通过产生对象之后才可以操作这个类范例观察如下代码 class Singleton public void print System out println Hell
Web3的未来：7 个潜在的亿级机会

Web3的未来将不仅仅是PFP的jpegs NFT市场 CEXs DEXs和DeFi协议为了使Web3成为主流有许多工具可以围绕一个繁荣的生态系统来构建这里有7个隐藏的web3亿美元的机会当下就开始建设 1 钱包整合生态系统 Web
随机生User-Agent代理Ip

import random import urllib request def url url p 49 235 246 24 8118 proxy support urllib request ProxyHandler http p op
opencv2 无法加载RTSP的问题

最近通过OPENCV3 2 0加载海康摄像头实现后续的摄像头画面拼接但是发现拷贝了所有的opencv2的dll文件仍然无法成功加载rtsp视频流假设是视频流无法获取通过VLC工具拉流可以成功效果如下后来试了很多其他办法感觉
linux卸载内核

查看所安装的所有内核 ls boot 在删除旧内核之前记住最好留有2个最近的内核最新的和上一个版本以防主要的版本出错现在就让我们看看如何在Ubuntu上清理旧内核在Ubuntu内核镜像包含了以下的包 linux image 内核镜
【python实现华为OD机试真题】优雅子数组【2023 Q1

题目描述如果一个数组Q中出现次数最多的元素出现大于等于K次被称为k 优雅数组 k也可以被称为优雅阈值只例如数组1 2 3 1 2 3 1 它是一个3 优雅数组因为元素1出现次数大于等于3次数组 1 2 3 1 2 就不是一一个3
UE4 跑酷游戏-得分机制

得分机制 1 这次我们要做的是得分根据人物跑过的地板来得取分数首先进入我们的第三人称游戏模式里面创建一些变量 2 退出第三人称游戏模式后进入主地板蓝图后在销毁地板之前写读取人物跑i过地板块数进行得分
Unity 使用Photon Server 联网开发（一）配置连接设置流程

Photon官网首页 Photon官网下载配置Pun与Server的教程 Photon Pun与Server的下载与配置教程 1 Pun导入项目后配置PhotonServerSettings Hosting 服务器托管方式 Not Set
Date 日期时间浅层研究

Date 日期时间浅层研究若需查看所有函数及属性常量请直接翻至尾部文章目录 Date 日期时间浅层研究获取当前时间奇怪玩法 Date System Calendar 奇怪的问题探究区查看此资料之前我们需要了解下 native
论文阅读：FMCW雷达生命体征监测（心跳监测）

论文基于连续波雷达的非接触式生命体征监测系统设计与实现 1 雷达种类及特点用于非接触式测量的雷达种类主要有脉冲雷达和连续波雷达两类脉冲雷达根据发射脉冲与接收脉冲的时间差来计算所测量对象的实际距离脉冲雷达需要将窄脉冲持续地发出其优点
QVector 容器

QVector 容器 QVector在相邻的内存中存储给定数据类型T的一组数据在QVector前部或中间位置插入操作速度都很慢因会导致内存中大量的数据移动访问数据可使用下标也可使用迭代器继承自QVector类的子类有QPolygo
如何运行后缀名为.ipynb的文件

打开cmd 输入 pip install jupyter notebook 安装截图下载之后输入 jupyter notebook 之后浏览器会弹出一个页面如图然后就可以打开电脑里的文件如图也可以选择upload你的文件打开i
Android 下拉刷新实践

1 手动实现一个下拉刷新功能 2 效果图 3 view结构 4 实现思路
linux系统调用线程

1 基础概念早期unix系统中没有线程概念后来才引入线程 linxu 为了迎合 windows引入了线程 linux 上进程是非常优秀了 linux 上用线程和进程的区别不大老程序都是用进程 gdb不支持线程因为gdb比线程出现了
net core 下的图形验证码

首先通过 Nuget 安装 dotnet add package Lazy Captcha Core 注册服务默认使用了内存存储 AddDistributedMemoryCache builder Services AddCaptcha
什么是IDP？---What Is an Internal Developer Platform (IDP)?

The modern approach to software delivery is based on cloud native services and the DevOps culture entailing software dev
项目-天气邮局

一项目背景 http协议被广泛使用从移动端 pc端浏览器 http协议无疑是打开互联网应用窗口的重要协议 http在网络应用层中的地位不可撼动是能准确区分前后台的重要协议在学习完网络的有关知识后 HTTP服务器无疑是巩固及应用所学知
怎么用linux查看xml文件格式,xml是什么格式？xml文件格式用什么软件可以打开

xml是什么格式 xml文件是很多用户在电脑上看见过了很多小伙伴看到了xml格式的文件都不知道这个是什么东东其实这个xml也是一种比较有用的文件可以用来存储软件数据不过不是所有的软件都可以打开的下面智能手机网就来科普一下xml是什
各种虚拟机体验杂谈 --- 兼发布 google chrome os (chromiumos) vmware版本

前两天赶时髦把笔记本换上了win8 pro 换win8pro的原因一个是价格真的很有诚意另一个就是从DP版本开始就一直用虽然兼容性问题多多但作为宿主主机还行而且xenclient也实在是让人窝火号称裸机虚拟其实硬盘速度慢如蜗

随机推荐

读论文（五）MedDialog【参考性大】【可复现】

Abstract 医疗对话系统有望帮助远程医疗增加医疗保健服务的可及性提高患者护理质量并降低医疗成本为促进医学对话系统的研发我们构建了大规模的医学对话数据集 MedDialog 其中包含中文数据集340万条医患对话英文数据集120条
24 个 ES6 方法，解决实际开发的 JS 问题

1 如何隐藏所有指定的元素 tips 本文主要介绍 24 中 es6 方法这些方法都挺实用的本本请记好时不时翻出来看看 const hide el gt Array from el forEach e gt e style displ
使用 Socket 通信实现 FTP 客户端程序

转 https www ibm com developerworks cn linux l cn socketftp index html FTP FTP 概述文件传输协议 FTP 作为网络共享文件的传输协议在网络应用软件中具有广泛的应
python是一门面向过程的语言有哪些,python是面向过程的吗

python是面向过程的吗 1 面向过程核心是过程二字过程指的是解决问题的步骤好比如设计一条流水线是一种机械式的思维方式就是程序从上到下一步步执行一步步从上到下从头到尾的解决问题基本设计思路就是程序一开始是要着手解决一个大的
迷你Web文件服务器

在开发Web程序的时候有时候需要一个轻量级的Web服务器用来响应前端的请求前端一般的请求可以通过本地文件的方式显示但是毕竟不是真正的Web服务器有了这个需求我们开发了一款迷你绿色通用的Web文件服务器下载地址 WebServe
Ubuntu16.04.7+Qt15.5.0环境配置（一条龙讲解）

目录 1 下载并安装Ubuntu 2 Qt下载与安装 3 Qt环境配置 4 设置编译套件 5 创建qt快速启动脚本 1 下载并安装Ubuntu Ubuntu16 04 7下载链接https releases ubuntu com xenia
ipconfig bash: ipconfig: command not found...

在使用linux查看端口的时候应该用ifconfig Windows才使用ipconfig
Qt 操作SQLite数据库

一 SQLite 介绍 Sqlite 数据库作为 Qt 项目开发中经常使用的一个轻量级的数据库可以说是兼容性相对比较好的数据库之一 Sqlite就像Qt的亲儿子如同微软兼容Access数据库一样 Qt5 以上版本可以直接使用 Qt自带驱
09字符串排序

给定两个字符串从字符串2中找出字符串1中的所有字符去重并按照ASCII码值从小到大排列输入字符串1长度不超过1024 字符串2长度不超过100 字符范围满足ASCII编码要求按照ASCII由小到大排序输入描述 bach bbaac
CBAM：融合通道和空间注意力的注意力模块

点击上方 AI公园关注公众号选择加星标或置顶作者 Sik Ho Tsang 编译 ronghuaiyang 导读使用CBAM加持的MobileNetV1 ResNeXt ResNet WRN优于使用SENet的网络在这篇文章
java:统计数组中元素出现的个数

问题描述定义一个方法传入一个int类型数组输出这个数组中每一个数字及其出现的个数例如传入数组 1 2 2 2 3 3 4 4 4 4 打印结果数字1出现了1次数字2出现了3次算法思想这里主要是在实现数组元素的遍历过程中如果
Springboot 整合mybatis-plus +代码生成器

mybatis plus官方文档 https mp baomidou com guide 新建一个Springboot项目代码生成结构如下一添加依赖
el-dialog弹窗改变默认样式，改变弹窗高度位置

el dialog弹窗改变默认样式改变弹窗高度位置在el dialog上添加class view dialog
4https 原理

春光正暖情绪微高穿行于街巷浮现三两过往事不惧时光肆意流淌新的一年万事顺遂文章目录 1 http的缺点 2 加密算法 2 1 对称加密 2 2 非对称加密算法的实现的思路公钥加密私钥解密 2 3 ca的诞生 ca如何生成证
python---装饰器进阶之路

装饰器的本质在不改变被装饰对象原有的调用方式和内部代码的情况下给被装饰对象添加新的功能装饰器的原则对扩展开放对修改封闭为何要用装饰器软件的设计应该遵循开放封闭原则即对扩展是开放的而对修改是封闭的对扩展开放意味着有
PR/AE/FCPX比较好用的插件有哪些？

Beauty Box 磨皮润肤美容插件 Digital Anarchy比较出众的一款视频磨皮美白降噪插件支持系统 windows Mac 软件版本 PR AE CS6 2023 Davinci Resolve 达芬奇11以上 FCPX 1
机器学习二：支持向量机

支持向量机 1 介绍 2 对偶问题 3 非线性数据 3 1 核函数与核技巧 3 1 1 数学解释 3 1 2 几种常用的核函数 4 SVM 响应离群点 4 1 软间隔 4 2 正则化 4 3 参数调整 4 3 1 SVM C Paramet
OpenGL学习书籍推荐

1 opengl 红宝书 2 Nehe的Opengl教程网上的文章能形成一个完整系列的就是 Nehe的有点老不过不影响学习理论 3 知乎上的这个帖子也提供了不少思路 https www zhihu com question 2416
汉堡王什么汉堡好吃_汉堡王9款汉堡测评，牛肉和鸡肉你喜欢哪个？

从第一次吃汉堡王到现在已经好久了数了一下他们家的汉堡我已经吃了9种了虽然还没有全部吃过一遍今天就来盘点一下汉堡王的汉堡吧小皇堡第一次吃的就是小皇堡当时不是很能吃得惯所以从那时起就有点不太敢尝试皇堡系列后来真香了里面有西红
[中奖]第九届“泰迪杯”挑战赛A题

问题概述题目1如下赛题有2个点分别是确定数据指标即确定哪些特征是决定财务造假与否的关键特征预测造假公司训练模型然后跑测试数据即可预处理首先使用missingno2 对全局数据进行观测看一看缺失值等情况然后删去无用的特

[中奖]第九届“泰迪杯”挑战赛A题

问题概述

预处理

第一题

第二题

后记

[中奖]第九届“泰迪杯”挑战赛A题 的相关文章

随机推荐

热门标签

[中奖]第九届“泰迪杯”挑战赛A题的相关文章