达观杯_构建模型（三）lightGBM

2023-10-26

countvector(a)+doc(a)+hash(a)

"""
1.特征：countvector(a)+doc(a)+hash(a)
2.模型：lgb
"""
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
import pickle
import lightgbm as lgb


"""=====================================================================================================================
1 读取数据,并转换到lgb的标准数据格式
"""
with open('countvector(a)+doc(a)+hash(a).pkl', 'rb') as f:
    x_train, y_train, x_test = pickle.load(f)

"""划分训练集和验证集，验证集比例为test_size"""
x_train, x_vali, y_train, y_vali = train_test_split(x_train, y_train, test_size=0.1, random_state=0)
d_train = lgb.Dataset(data=x_train, label=y_train)
d_vali = lgb.Dataset(data=x_vali, label=y_vali)

"""=====================================================================================================================
2 训练lgb分类器
"""
params = {
        'boosting': 'gbdt',
        'application': 'multiclassova',
        'num_class': 20,
        'learning_rate': 0.1,
        'num_leaves':31,
        'max_depth':-1,
        'lambda_l1': 0,
        'lambda_l2': 0.5,
        'bagging_fraction' :1.0,
        'feature_fraction': 1.0
        }

bst = lgb.train(params, d_train, num_boost_round=800, valid_sets=d_vali,feval=f1_score_vali, early_stopping_rounds=None,
                verbose_eval=True)
 
"""=====================================================================================================================
3 对测试集进行预测;将预测结果转换为官方标准格式；并将结果保存至本地
"""
y_proba = bst.predict(x_test)
y_test = np.argmax(y_proba, axis=1) + 1

df_result = pd.DataFrame(data={'id':range(102277), 'class': y_test.tolist()})
df_proba = pd.DataFrame(data={'id':range(102277), 'proba': y_proba.tolist()})

df_result.to_csv('lgb_countvector(a)+doc(a)+hash(a).csv',index=False)
df_proba.to_csv('lgb_countvector(a)+doc(a)+hash(a)_proba.csv',index=False)

特征：countvector(w)+doc(w)+hash(w)

"""
1.特征：countvector(w)+doc(w)+hash(w)
2.模型：lgb
"""
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
import pickle
import lightgbm as lgb


"""=====================================================================================================================
1 读取数据,并转换到lgb的标准数据格式
"""
with open('countvector(w)+doc(w)+hash(w).pkl', 'rb') as f:
    x_train, y_train, x_test = pickle.load(f)

"""划分训练集和验证集，验证集比例为test_size"""
x_train, x_vali, y_train, y_vali = train_test_split(x_train, y_train, test_size=0.1, random_state=0)
d_train = lgb.Dataset(data=x_train, label=y_train)
d_vali = lgb.Dataset(data=x_vali, label=y_vali)

"""=====================================================================================================================
2 训练lgb分类器
"""
params = {
        'boosting': 'gbdt',
        'application': 'multiclassova',
        'num_class': 20,
        'learning_rate': 0.1,
        'num_leaves':31,
        'max_depth':-1,
        'lambda_l1': 0,
        'lambda_l2': 0.5,
        'bagging_fraction' :1.0,
        'feature_fraction': 1.0
        }

bst = lgb.train(params, d_train, num_boost_round=800, valid_sets=d_vali,feval=f1_score_vali, early_stopping_rounds=None,
                verbose_eval=True)
 
"""=====================================================================================================================
3 对测试集进行预测;将预测结果转换为官方标准格式；并将结果保存至本地
"""
y_proba = bst.predict(x_test)
y_test = np.argmax(y_proba, axis=1) + 1

df_result = pd.DataFrame(data={'id':range(102277), 'class': y_test.tolist()})
df_proba = pd.DataFrame(data={'id':range(102277), 'proba': y_proba.tolist()})

df_result.to_csv('lgb_countvector(w)+doc(w)+hash(w).csv',index=False)
df_proba.to_csv('lgb_countvector(w)+doc(w)+hash(w)_proba.csv',index=False)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

达观杯nlp算法比赛总结

达观杯_构建模型（三）lightGBM 的相关文章

RC低通滤波器

先来几个不错的资源链接 1 RC滤波器截止频率在线计算器 http www eechina com tools rc filter cutoff frequency html 2 详谈一阶RC低通滤波器如何过滤高频噪声网上不错的一个帖子
Linux学习-43-挂载Linux系统外的文件mount和卸载文件系统umount命令用法

10 10 mount命令详解挂载Linux系统外的文件所有的硬件设备必须挂载之后才能使用新硬盘先格式化后创建分区再对分区进行挂载只不过有些硬件设备比如硬盘分区在每次系统启动时会自动挂载而有些比如 U 盘光盘则需要手
使用w,vmstat命令,top命令,sar命令,nload命令

监控系统状态 w命令 uptime load average 0 00 0 01 0 05 上面这条显示的就是系统负载后面有三段数字 root localhost w 21 33 04 up 41 min 1 user load aver
STS & 开发异常

1 Failed to start component 情景本地 tomcat 部署了两个项目一个provider 一个 server 前台通过server访问 provider 在开发的时候将tomcat部署的服务 Clean 或者
Android-模块化-项目实践和探索分享

文章目录前言一 gradle统一配置 1 多模块项目的构建 2 根项目的构建配置 3 常用公用的构建配置二 nexus与maven publish 1 安装nexus 2 仓库 3 maven publish 三动态依赖 1 依赖的
在IDEA中使用Maven将项目打包成jar包

1 在pom xml文件中添加代码
[Python图像处理] 二十九.MoviePy视频编辑库实现抖音短视频剪切合并操作

该系列文章是讲解Python OpenCV图像处理知识前期主要讲解图像入门 OpenCV基础用法中期讲解图像处理的各种算法包括图像锐化算子图像增强技术图像分割等后期结合深度学习研究图像识别图像分类应用希望文章对您有所帮助如
【质量】代码质量评价标准

今天来思考下如何评价代码质量业界公认比较认可的七大标准可维护性 maintainability 可读性 readability 可扩展性 extensibility 灵活性 flexibility 简洁性 simplicity 可复用性
ReentrantReadWriteLock

一ReentrantReadWriteLock 是Lock的另一种实现方式我们知道ReentrantLock是一个排他锁同一时间只允许一个线程访问而ReentrantReadWriteLock允许多个读线程同时访问但不允许写线程和读
RuntimeError: Address already in use

Pytorch用多张GPU训练时会报地址已被占用的错误其实是端口号冲突了因此解决方法要么kill原来的进程要么修改端口号在代码里重新配置 torch distributed init process group dist init
ajax异步加载jqgrid之动态创建

2019独角兽企业重金招聘Python工程师标准 gt gt gt 之前写过一篇过于ajax异步加载jqgrid的文章那个只是一个特殊的情况如果创建不同数据库表的jqgrid 必须分别写servlet dao层和连接池很麻烦今天我写
Hive insert overwrite 问题

微信公众号苏言论理论联系实际畅言技术与生活文章目录 1 测试的版本 2 insert overwrite使用说明 3 示例 4 建议的操作 5 参考链接 1 测试的版本 Apache hive 1 1 0 2 3 1 3 1 0 2

随机推荐

vue3 全局批量注册组件

思路 1 使用 require 提供的函数 context 加载某一个目录下的所有 vue 后缀的文件 2 context 函数会返回一个导入函数 importFn 3 它有一个方法 keys 获取所有的文件路径 4 通过文件路径数组通过
Ubuntu20.04 + 3090 安装nvidia驱动，附加解决重启黑屏卡在 /dev/***: clean, **files,***blocks的问题

目录准备禁用nouveau 解决黑屏问题并安装驱动参考准备首先需要知道当前电脑服务器的显卡型号这个自行查找自己电脑配置查找显卡对应的驱动版本通过命令ubuntu drivers devices查看当前设备所支持的驱动带有
Android 监控SD卡的插拔状态

http blog csdn net pasterzhang article details 8151877 我们是以DV6300 T的平台来做测试的发现有2种方式来检测Android中external media 包括SD卡 USB 的
Spring Cloud Feign nested exception is java.lang.IllegalStateException

Spring Cloud Feign 使用时抛出异常 nested exception is java lang IllegalStateException RequestParam value was empty on parameter
数据结构——广度优先遍历（队列）

队列的基本操作 include
单片机C语言零基础入门05 - 逻辑运算

硬件家园单片机C语言零基础入门资料汇总链接 https mp weixin qq com s hMTreNUX V90461tvALjJA 一逻辑与或非基础理论逻辑与或非运算对象是布尔值 1或0 真或假类似于数字电路的与门或门
Qt 快速读写Excel指南

Qt Windows 下快速读写Excel指南很多人搜如何读写excel都会看到用QAxObject来进行操作很多人试了之后都会发现一个问题就是慢非常缓慢因此很多人得出结论是QAxObject读写excel方法不可取效率低后来
c#——简易的客车售票系统

制作一个简单的客车售票系统假设客车的座位数是9行4列使用一个二维数组记录客车售票系统中的所有座位号并在每个座位号上都显示有票然后用户输入一个坐标位置按回车键即可将该座位号显示为已售程序运行结果如下所示 using Syst
Redis的安装与Linux下查看服务安装情况

Redis的安装移步到大神博客https www cnblogs com hunanzp p 12304622 html Linux下服务的安装情况移步到大神博客 https www cnblogs com zyh0430 p 1187
SpringMVC ssm 接收 List对象

ssm接收参数不能为接口类型因此可以使用ArrayList对象接受前端传来的list对象 RequestMapping list public PageVO
jQuery之简单的表单验证

点击打开链接 html部分
HTML单选、多选、按钮、下拉框、文本输入框
(文章复现)基于主从博弈的新型城镇配电系统产消者竞价策略

参考文献 1 陈修鹏李庚银夏勇基于主从博弈的新型城镇配电系统产消者竞价策略 J 电力系统自动化 2019 43 14 97 104 1 基本原理在竞争性电力市场下新型城镇配电系统内主要有以下几类主体电力交易中心和调度部门产消者
GLSurfaceView黑屏问题解决

问题列表打开其他页面返回当前页面 GLSurfaceView会有短暂黑屏按HOME键回到后台再切换回来 GLSurfaceView会有短暂黑屏分析以上问题总结下就是回到后台后再切换到前台 GLSurfaceView会有短暂黑屏提
TensorFlow中的name有什么用

在某些地方我看到了语法其中变量用name初始化有时没有name 例如 With name var tf Variable 0 name counter Without one tf constant 1 那么变量名var和counte
以太坊合并升级的全面介绍

以太坊主网即将通过称为合并的升级从工作量证明转向权益证明共识机制合并 Merge 是以太坊生态系统一系列主要升级的一部分此外还有Surge Verge Purge以及Splurge 多次升级的目的是为了提高以太坊的可扩展性和能效
基于STM32F103C6T6的AB相霍尔编码电机的PID转速调节（CubeMx-HAL库）（未完成-持续更新）

基于STM32F103C6T6的AB相霍尔编码电机的PID转速调节 CubeMx HAL库未完成持续更新主要是记录一下以后忘了再来看看也记录记录自己做过的东西首先是硬件电路图一下是驱动板的硬件电路图来自于实验室的某大佬比赛开
Cuda——cudaGetDeviceProperties函数及cudaDeviceProp结构体的调用

首先介绍下 cudaGetDeviceCount函数 cudaError t err cudaGetDeviceCount count 获取当前支持cuda编程的设备数目通过count值返回若count值为0 则初始化失败当前设备不支
ARM（IMX6U）裸机C语言版本LED驱动实验(汇编进入处理器SVC模式、SP堆内存、跳转main函数、链接起始地址)

参考 Linux之ARM IMX6U 裸机C语言LED驱动实验驱动编写编译作者一只青木呀发布时间 2020 08 11 11 20 17 网址 https blog csdn net weixin 45309916 article
达观杯_构建模型（三）lightGBM

countvector a doc a hash a 1 特征 countvector a doc a hash a 2 模型 lgb import numpy as np import pandas as pd from sklearn

达观杯_构建模型（三）lightGBM

countvector(a)+doc(a)+hash(a)

特征：countvector(w)+doc(w)+hash(w)

达观杯_构建模型（三）lightGBM 的相关文章

随机推荐

热门标签