讯飞AI算法挑战大赛-校招简历信息完整性检测挑战赛-三等奖方案

2023-12-17

前言

本文公开了”讯飞AI算法挑战大赛-校招简历信息完整性检测挑战赛“赛道的技术方案和代码,本次比赛主要采用 pdf解析 特征工程 的方法,通过使用 lightgbm 的树模型10折交叉验证进行 二分类 的任务,最终取得三等奖的成绩。

一、赛题任务

简历智能化判断,需要大量的数据集作为支撑,同时简历的半结构化数据特点和多变的简历风格给简历智能化判断带来了挑战,本次大赛将提供脱敏的学生中文简历数据集(pdf或docx格式)作为训练样本,参赛选手需要基于提供的样本数据构建模型,预测简历是否符合简历投递基本要求。任务如下:

简历完整性检测。根据要求提取简历要素特征数据,并根据样本数据构建模型,预测简历是否符合简历投递基本要求,预测结果可分为两个类别:即 完整(标签1) 不完整(标签0)

二、数据和评价指标

数据:脱敏后的学生简历数据集(pdf或docx格式)。训练数据提供脱敏后的数据集,共800余份。测试集不可见,由真实简历数据组成,共100余份。训练集全部为pdf格式。

注:数据集分为 正样本 负样本 ,其中正样本为完整性简历数据集,符合简历投递基本要求;负样本为不完整简历数据集,不符合简历投递基本要求。

评价指标: F1 score

三、方案

3.1.方案概述

本次比赛主要采用pdf解析和特征工程的方法,通过使用lightgbm的树模型10折交叉验证进行 二分类 的任务。

3.2.pdf2text解析

本次比赛主要实验了以下几种解析工具,最终最高分选择了 pymupdf

  • pdfplumber

  • PyPDF2

  • pymupdf

3.3.特征工程

主要 文本特征 如下:

  • 页数

  • pdf2text的文本长度

  • 按行切分后的平均长度

  • 按行切分后的最大长度

  • 按行切分后的长度标准差

  • text字符集合的大小

  • pdf2text的文本长度-text字符集合的大小

  • text字符集合的大小/(pdf2text的文本长度+1)

  • text空格切分后的列表大小

  • text换行符切分后的列表大小

  • -的数量

  • x的数量

  • xxx的数量

  • 数字的数量

  • @的数量

  • .com的数量

  • *的数量

  • :的数量

  • ****的数量

  • 正则匹配电话号码的数量

特征提取对应的 code

pattern = r"[\D]+(1\d{10})+(?!\d)"

def extract_feature_from_pdf(path):
    doc = fitz.open(path)
    all_content = []
    page_nums = 0
    for i in doc.pages():
        page_nums += 1
        all_content.append(i.get_text())
    text = ''.join(all_content)
    text = ''.join(text.split('\n'))

    feat = [
        page_nums,
        len(text),
        np.mean([len(x) for x in text.split('\n')]),
        np.max([len(x) for x in text.split('\n')]),
        np.std([len(x) for x in text.split('\n')]),

        len(set(text)),
        len(text) - len(set(text)),
        len(set(text)) / (len(text) + 1),

        len(text.split()),
        len(text.split('\n')),
        text.count('-'),
        text.count('x'),
        text.count('xxx'),
        sum([text.count(x) for x in '0123456789']),
        text.count('@'),
        text.count('.com'),
        text.count('*'),
        text.count(':'),
        text.count('****'),
        len(re.compile(pattern).findall(text)),
        1 if '正样本' in path else 0,

    ]
    return feat

3.4.训练代码

本次比赛主要使用的是 lightgbm 的树模型,视为 二分类 任务,进行 10折交叉验证 的训练。

#!/usr/bin/env python
# _*_coding:utf-8_*_
# Author   :    Junhui Yu

import warnings

warnings.simplefilter('ignore')

import gc

import pandas as pd

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_score, classification_report

import lightgbm as lgb

import glob

import pandas as pd
from tqdm import tqdm
import numpy as np
import re
import fitz

pattern = r"[\D]+(1\d{10})+(?!\d)"


def extract_feature_from_pdf(path):
    doc = fitz.open(path)
    all_content = []
    page_nums = 0
    for i in doc.pages():
        page_nums += 1
        all_content.append(i.get_text())
    text = ''.join(all_content)
    text = ''.join(text.split('\n'))

    feat = [
        page_nums,
        len(text),
        np.mean([len(x) for x in text.split('\n')]),
        np.max([len(x) for x in text.split('\n')]),
        np.std([len(x) for x in text.split('\n')]),

        len(set(text)),
        len(text) - len(set(text)),
        len(set(text)) / (len(text) + 1),

        len(text.split()),
        len(text.split('\n')),
        text.count('-'),
        text.count('x'),
        text.count('xxx'),
        sum([text.count(x) for x in '0123456789']),
        text.count('@'),
        text.count('.com'),
        text.count('*'),
        text.count(':'),
        text.count('****'),
        len(re.compile(pattern).findall(text)),
        1 if '正样本' in path else 0,

    ]
    return feat


train_paths = glob.glob(
    '../xfdata/校招简历信息完整性检测训练集/*/*.pdf')

df_train = pd.DataFrame(
    columns=[
        'page_nums',
        'text_len',
        'text_len_mean',
        'text_len_max',
        'text_len_std',
        'text_set_len',
        'lentext-lenset',
        'lenset_div_lentext',
        'text_split_len',
        'text_split_ent_len',
        '-_nums',
        'x_nums',
        'xxx_nums',
        'dig_sum',
        '@_nums',
        '.com_nums',
        '*_nums',
        ':_nums',
        '****_nums',
        'phone_nums',
        'label'
    ])

for t_p in tqdm(train_paths):
    df_train.loc[len(df_train)] = extract_feature_from_pdf(t_p)

not_use_feats = ['label']
use_features = [col for col in df_train.columns if col not in not_use_feats]
print(len(use_features))
train = df_train[df_train['label'].notna()]

NUM_CLASSES = 2
FOLDS = 10
TARGET = 'label'


def run_lgb(df_train, use_features):
    target = TARGET
    oof_pred = np.zeros((len(df_train), NUM_CLASSES))

    folds = StratifiedKFold(n_splits=FOLDS, shuffle=True, random_state=42)
    for fold, (tr_ind, val_ind) in enumerate(folds.split(train, train[TARGET])):
        print(f'Fold {fold + 1}')
        x_train, x_val = df_train[use_features].iloc[tr_ind], df_train[use_features].iloc[val_ind]
        y_train, y_val = df_train[target].iloc[tr_ind], df_train[target].iloc[val_ind]
        train_set = lgb.Dataset(x_train, y_train)
        val_set = lgb.Dataset(x_val, y_val)

        params = {
            'learning_rate': 0.1,
            'metric': 'multiclass',
            'objective': 'multiclass',
            'num_classes': NUM_CLASSES,
            'feature_fraction': 0.75,
            'bagging_fraction': 0.75,
            'bagging_freq': 2,
            'n_jobs': -1,
            'seed': 1029,
            'max_depth': 10,
            'num_leaves': 100,
            'lambda_l1': 0.5,
            'lambda_l2': 0.8,
            'verbose': -1
        }

        model = lgb.train(params,
                          train_set,
                          num_boost_round=500,
                          early_stopping_rounds=100,
                          valid_sets=[train_set, val_set],
                          verbose_eval=100)
        oof_pred[val_ind] = model.predict(x_val)
        print('acc:', accuracy_score(np.argmax(oof_pred, axis=1), df_train['label']))
        del x_train, x_val, y_train, y_val, train_set, val_set
        gc.collect()

    return oof_pred, model


oof_pred, model = run_lgb(train, use_features)
print(classification_report(np.argmax(oof_pred, axis=1), df_train['label']))

model.save_model('model.txt')

3.5.推理代码

#!/usr/bin/env python
# _*_coding:utf-8_*_
# Author   :    Junhui Yu


import glob

import pandas as pd
import numpy as np
import re
import fitz

import lightgbm as lgb

patter = r"[\D]+(1\d{10})+(?!\d)"


def extract_feature_from_pdf(path):
    doc = fitz.open(path)
    all_content = []
    page_nums = 0
    for i in doc.pages():
        page_nums += 1
        all_content.append(i.get_text())
    text = ''.join(all_content)
    text = ''.join(text.split('\n'))

    feat = [
        page_nums,
        len(text),
        np.mean([len(x) for x in text.split('\n')]),
        np.max([len(x) for x in text.split('\n')]),
        np.std([len(x) for x in text.split('\n')]),

        len(set(text)),
        len(text) - len(set(text)),
        len(set(text)) / (len(text) + 1),

        len(text.split()),
        len(text.split('\n')),
        text.count('-'),
        text.count('x'),
        text.count('xxx'),
        sum([text.count(x) for x in '0123456789']),
        text.count('@'),
        text.count('.com'),
        text.count('*'),
        text.count(':'),
        text.count('****'),
        len(re.compile(patter).findall(text)),
        1 if '正样本' in path else 0,

    ]
    return feat


df = pd.DataFrame(
    columns=[
        'page_nums',
        'text_len',
        'text_len_mean',
        'text_len_max',
        'text_len_std',
        'text_set_len',
        'lentext-lenset',
        'lenset_div_lentext',
        'text_split_len',
        'text_split_ent_len',
        '-_nums',
        'x_nums',
        'xxx_nums',
        'dig_sum',
        '@_nums',
        '.com_nums',
        '*_nums',
        ':_nums',
        '****_nums',
        'phone_nums',
        'label'
    ])

test_paths = glob.glob('/work/data/integrity-check-of-resume-test-set/*.pdf')[:]

for t_f in test_paths:
    df.loc[len(df)] = extract_feature_from_pdf(t_f)

not_use_feats = ['label']
use_features = [col for col in df.columns if col not in not_use_feats]

model = lgb.Booster(model_file='model.txt')

y_pred = model.predict(df[use_features])

predict_label = np.argmax(y_pred, axis=1)

pd.DataFrame({
    'ResumeID': [x.split('/')[-1] for x in test_paths],
    'label': predict_label.astype(int)
}).to_csv('/work/output/result.csv', index=None)

3.6.特征重要度与f1-score

                feature  split       gain
16              *_nums     96  23.080862
15           .com_nums     68  15.428008
6       lentext-lenset    126  12.632440
7   lenset_div_lentext    222  10.997545
13             dig_sum    218   7.045122
1             text_len    110   4.449556
17              :_nums    179   4.178767
8       text_split_len    165   4.169549
10              -_nums    137   3.483447
5         text_set_len    184   3.018025
14              @_nums     13   2.870494
11              x_nums     94   2.141016
19          phone_nums     16   1.668496
18           ****_nums     12   1.608449
12            xxx_nums     24   1.249654
2        text_len_mean     31   1.066294
0            page_nums     31   0.803168
3         text_len_max      5   0.109109
9   text_split_ent_len      0   0.000000
4         text_len_std      0   0.000000

              precision    recall  f1-score   support

           0       0.75      0.84      0.79       105
           1       0.98      0.96      0.97       710

    accuracy                           0.94       815
   macro avg       0.86      0.90      0.88       815
weighted avg       0.95      0.94      0.94       815

四、延伸

本次比赛任务相对简单,如果真正做到应用级别还需要考虑更多维度综合对简历的完整性进行评价。比如:简历中核心字段的填充率、设计简历中核心字段的重要性权值等等多维度信息。涉及技术可能有基于实体识别的 简历解析 (从本文特征工程也可以看出)技术等。

结论

本文仅记录8月份参与该比赛思路,至于代码也很普通。该比赛任务由于比较简单,线下指标虚高,训练数据与线上评测数据较少(耐心做特征工程分数可以非常高),并且技术价值不高。因此,前前后后投入差不多一个小时左右时间速刷了一下,最后偶然获奖。

参考文献

【1】校招简历信息完整性检测挑战赛:https://challenge.xfyun.cn/topic/info?type=information-integrity&option=ssgy

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

讯飞AI算法挑战大赛-校招简历信息完整性检测挑战赛-三等奖方案 的相关文章

  • 如果两点之间的距离低于某个阈值,则从列表中删除点

    我有一个点列表 只有当它们之间的距离大于某个阈值时 我才想保留列表中的点 因此 从第一个点开始 如果第一个点和第二个点之间的距离小于阈值 那么我将删除第二个点 然后计算第一个点和第三个点之间的距离 如果该距离小于阈值 则比较第一点和第四点
  • 如何手动计算分类交叉熵?

    当我手动计算二元交叉熵时 我应用 sigmoid 来获取概率 然后使用交叉熵公式并平均结果 logits tf constant 1 1 0 1 2 labels tf constant 0 0 1 1 1 probs tf nn sigm
  • 元组有什么用?

    我现在正在学习 Python 课程 我们刚刚介绍了元组作为数据类型之一 我阅读了它的维基百科页面 但是 我无法弄清楚这种数据类型在实践中会有什么用处 我可以提供一些需要一组不可变数字的示例吗 也许是在 Python 中 这与列表有何不同 每
  • 安装了 32 位的 Python,显示为 64 位

    我需要运行 32 位版本的 Python 我认为这就是我在我的机器上运行的 因为这是我下载的安装程序 当我重新运行安装程序时 它会将当前安装的 Python 版本称为 Python 3 5 32 位 然而当我跑步时platform arch
  • Python getstatusoutput 替换不返回完整输出

    我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效 不过我觉得这个方法有问题output被构建 它只返回输出的最后一行 但我不明白为什么 任何帮助都是极好的 def
  • 独立滚动矩阵的行

    我有一个矩阵 准确地说 是 2d numpy ndarray A np array 4 0 0 1 2 3 0 0 5 我想滚动每一行A根据另一个数组中的滚动值独立地 r np array 2 0 1 也就是说 我想这样做 print np
  • 使用Python请求登录Google帐户

    在多个登录页面上 需要谷歌登录才能继续 我想用requestspython 中的库以便让我自己登录 通常这很容易使用requests库 但是我无法让它工作 我不确定这是否是由于 Google 做出的一些限制 也许我需要使用他们的 API 或
  • 您可以格式化 pandas 整数以进行显示,例如浮点数的“pd.options.display.float_format”?

    我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
  • Python beautifulsoup 仅限 1 级文本

    我看过其他 beautifulsoup 得到相同级别类型的问题 看来我的有点不同 这是网站 我正试图拿到右边那张桌子 请注意表的第一行如何展开为该数据的详细细分 我不想要那个数据 我只想要最顶层的数据 您还可以看到其他行也可以展开 但在本例
  • 从Python中的字典列表中查找特定值

    我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
  • 在Python中检索PostgreSQL数据库的新记录

    在数据库表中 第二列和第三列有数字 将会不断添加新行 每次 每当数据库表中添加新行时 python 都需要不断检查它们 当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息 警告 数量已降至 105 以下 另一方面
  • 如何使用 Mysql Python 连接器检索二进制数据?

    如果我在 MySQL 中创建一个包含二进制数据的简单表 CREATE TABLE foo bar binary 4 INSERT INTO foo bar VALUES UNHEX de12 然后尝试使用 MySQL Connector P
  • 如何通过索引列表从 dask 数据框中选择数据?

    我想根据索引列表从 dask 数据框中选择行 我怎样才能做到这一点 Example 假设我有以下 dask 数据框 dict A 1 2 3 4 5 6 7 B 2 3 4 5 6 7 8 index x1 a2 x3 c4 x5 y6 x
  • 不同编程语言中的浮点数学

    我知道浮点数学充其量可能是丑陋的 但我想知道是否有人可以解释以下怪癖 在大多数编程语言中 我测试了 0 4 到 0 2 的加法会产生轻微的错误 而 0 4 0 1 0 1 则不会产生错误 两者计算不平等的原因是什么 在各自的编程语言中可以采
  • 从 NumPy ndarray 中选择行

    我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组 例如 此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
  • 如何解决 PDFBox 没有 unicode 映射错误?

    我有一个现有的 PDF 文件 我想使用 python 脚本将其转换为 Excel 文件 目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
  • 将 Python 中的日期与日期时间进行比较

    所以我有一个日期列表 datetime date 2013 7 9 datetime date 2013 7 12 datetime date 2013 7 15 datetime date 2013 7 18 datetime date
  • 使用for循环时如何获取前一个元素? [复制]

    这个问题在这里已经有答案了 可能的重复 Python 循环内的上一个和下一个值 https stackoverflow com questions 1011938 python previous and next values inside
  • 使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

    作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk
  • Kivy - 单击按钮时编辑标签

    我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作 你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo

随机推荐

  • 深度学习小白学习路线规划

    作为深度学习的初学者 以下是一个建议的学习路线 可以帮助你逐步掌握图像分类 目标检测与跟踪 实例分割和姿态估计 掌握这些 计算机视觉算是入门了 1 基础知识 学习Python编程语言 它是深度学习最常用的编程语言之一 了解机器学习和深度学习
  • Deep learning 九 循环神经网络

    目前见过的所有神经网络 比如密集连接网络和卷积神经网络 都有一个主要特点 那就是它们都没有记忆 它们单独处理每个输人 在输人与输人之间没有保存任何状态 对于这样的网络 要想处理数据点的序列或时间序列 需要向网络同时展示整个序列 即将序列转换
  • 常用Web安全扫描工具合集

    漏洞扫描是一种安全检测行为 更是一类重要的网络安全技术 它能够有效提高网络的安全性 而且漏洞扫描属于主动的防范措施 可以很好地避免黑客攻击行为 做到防患于未然 那么好用的漏洞扫描工具有哪些 答案就在本文 1 AWVS Acunetix We
  • 八大排序(希尔排序)

    上篇文章我们来看了看插入排序是怎么实现的 本章内容就是在插入排序的基础上完成希尔排序 希尔排序是一个比较强大的排序 我们希尔排序的时间复杂度是比较难算的 这里直接给出的结论就是时间复杂度就是O N 1 3 比较难算的原因就是我们每一次的次数
  • 【亚马逊】2025届暑期实习生 提前批!

    传音控股 重庆 校招待遇 统一给这些23届秋招毁意向 毁约的无良公司发封感谢信 互联网大厂 VS 体制内 薪资福利大对比 wxg 第一周实习感受与总结 1 2 5SlAM岗面经汇总 slam算法岗24届实习 0offer选手总结 211本硕
  • glu32.dll文件缺失导致程序无法运行问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个glu32 d
  • 完美解决msvcr100.dll丢失的三个方法,亲测有效

    在计算机操作中 我们常遇到故障提醒 如 msvcr100 dll丢失 这个问题通常会导致某些程序无法正常运行 给用户带来困扰 为了解决这个问题 网上有很多关于如何修复msvcr100 dll丢失的方法 在本文中 我将介绍三种常见的解决方法
  • 题解 | #输出单向链表中倒数第k个结点#

    滴滴前端日常实习一面 字节跳动前端日常实习 一面 Cider秋招一二面 已拒 贝壳编程题题解 山东offer选择 求助 选择华为还是中电14所 写论文 写论文 华为 煞笔公司 华为待遇问题 已接offer 字节跳动飞书运营实习面经 华为 煞
  • fl studio20中文内测版下载2024最新完美实现汉化

    fl studio20是一款众所周知的水果编曲软件 能够剪辑 混音 录音 它的矢量界面能更好用在4K 5K甚至8K显示器上 还可以可以编曲 剪辑 录音 混音 让你的计算机成为全功能录音室 不论是在功能上面还是用户界面上都是数一数二的 但该软
  • yolov5单目测距+速度测量+目标跟踪

    要在YOLOv5中添加测距和测速功能 您需要了解以下两个部分的原理 单目测距算法 单目测距是使用单个摄像头来估计场景中物体的距离 常见的单目测距算法包括基于视差的方法 如立体匹配 和基于深度学习的方法 如神经网络 基于深度学习的方法通常使用
  • 题解 | #输出单向链表中倒数第k个结点#

    滴滴前端日常实习一面 字节跳动前端日常实习 一面 Cider秋招一二面 已拒 贝壳编程题题解 山东offer选择 求助 选择华为还是中电14所 写论文 写论文 华为 煞笔公司 华为待遇问题 已接offer 字节跳动飞书运营实习面经 华为 煞
  • 题解 | #复制部分字符串#

    拒了华为 重回0 offer 目前在大三 寒假想找个实习 退役大学生 如题 uu们帮忙看看 25届 没有实习过 没有背过八股文 心里感觉很不稳 下学期想去暑期实习 uu们 德赛西威鸽 在中国电信公司工作一年后 我提桶跑路 东北辽宁就业求职好
  • 24届双非一本想转行测试,不知道从哪开始学,求佬指教

    避雷西安华为海思某部门 四大行软开校招值得去吗 细节见品格 北京下大雪后的各大厂动作 回暖分析 战绩结算 on 赛文X 选offer 找实习需要实习经历 华为小奖状 夸夸我导师 别羡慕我 嘿嘿 华为od前端技术面 华为海思本科14级 国家计
  • Deep learning 八

    2 使用预训练的词嵌入 有时可用的训练数据很少 以至于只用手头数据无法学习适合特定任务的词嵌人 那么可以从预计算的嵌人空间中加载嵌入向量 这个嵌人空间是高度结构化的 并且具有有用的属性 即抓住了语言结构的一般特点 而不是在解决问题的同时学习
  • Go 语言中切片的使用和理解

    切片与数组类似 但更强大和灵活 与数组一样 切片也用于在单个变量中存储相同类型的多个值 然而 与数组不同的是 切片的长度可以根据需要增长和缩小 在 Go 中 有几种创建切片的方法 使用 datatype values 格式 从数组创建切片
  • 开题报告-基于SpringBoot的求职招聘系统的设计与实现

    一 选题的根据 由于临近毕业季 同学们也即将踏上自己的岗位 择业也成为了同学们当下最为关心的问题 为了能够更加方便的服务同学们找工作 最快最有效率的方式莫过于计算机网络 所以我就因此开发了这一个求职招聘系统 为广大求职者和各企业的人事单位提
  • 24届双非一本想转行测试,不知道从哪开始学,求佬指教

    避雷西安华为海思某部门 四大行软开校招值得去吗 细节见品格 北京下大雪后的各大厂动作 回暖分析 战绩结算 on 赛文X 选offer 找实习需要实习经历 华为小奖状 夸夸我导师 别羡慕我 嘿嘿 华为od前端技术面 华为海思本科14级 国家计
  • 介绍一下傻傻分不清的两个兄弟:过滤器和拦截器之拦截器

    那么拦截器又是什么呢 它跟过滤器又有什么区别呢 实际上 拦截器可以被视为一种对过滤器的封装 在Spring框架中 拦截器提供了更加灵活和强大的功能 可以与Spring MVC等框架无缝集成 并且通常用于处理请求的前置和后置逻辑 拦截器可以实
  • FLStudio20最新2024年中文汉化版

    FLStudio21 0 2 3中文版完整下载是最好的音乐开发和制作软件也称为水果循环 它是最受欢迎的工作室 因为它包含了一个主要的听觉工作场所 最新 FL 有不同的功能 如它包含图形和音乐音序器 帮助您使完美的配乐在一个美妙的方式 此程序
  • 讯飞AI算法挑战大赛-校招简历信息完整性检测挑战赛-三等奖方案

    前言 本文公开了 讯飞AI算法挑战大赛 校招简历信息完整性检测挑战赛 赛道的技术方案和代码 本次比赛主要采用 pdf解析 和 特征工程 的方法 通过使用 lightgbm 的树模型10折交叉验证进行 二分类 的任务 最终取得三等奖的成绩 一