python科研项目_通过科研人员论文项目等数据,训练识别导师/学生的分类器

2023-11-04

student_and_teacher_classifier

通过科研人员论文项目等数据,训练识别导师/学生的分类器。代码包括特征选择基础、网格搜索确定特征选择方法参数、不平衡数据的处理(oversampling和undersampling)和pu-learning方法在此问题上的应用。

简要介绍本任务

本任务主要基于科研人员的论文数据以及基于论文数据产生的pagerank值、centrality等特征。

由于特征大多数都是由论文信息得到(这是实际项目中数据的限制),所以想利用特征选择方法看能够去除一些冗余特征。

另外,由于在项目中大概有17000个导师标签,但是没有学生标签(后来手动标了1000多个),存在严重的数据不平衡问题,所以想利用不平衡学习的方法解决。除此之外,在没有手动标数据之前,尝试了pu-learning的方法,效果会好很多。

具体包括以下文件:

featureSelectionBasic.ipynb:主要包括常用特征选择方法,有Filter、Wrapper和Embedded三类。

commonClassifer.ipynb:网格搜索确定特征选择的参数,但是这份代码里直接使用分类器训练的效果不好,问题在于训练集正例数目很多,但是负例数目很少,正例数据大概是负例数据的10倍。

underSamplingClassifier.ipynb:主要采用undersampling的方法解决数据不平衡的问题。

overSamplingClassifier.ipynb:主要采用oversampling的方法解决数据不平衡的问题。

puLearningPredict.ipynb: 使用positive and unlabeled learning的方法解决数据不平衡的问题。

1、featureSelectionBasic

主要包括Filter、Wrapper和Embedded三类。

Filter

主要包括方差分析、相关系数法、卡方检验、F检验和互信息法。

Wrapper

主要包括递归特征消除法。

Embedded

主要包括基于树模型的特征选择法和基于正则化的特征选择法。

2、commonClassifer

在特征选择方面,主要使用了Filter中的方差分析、Wrapper中的RFE和RFECV、Embedded中的L1正则化。

特征选择参数使用的是网格搜索。

3、underSamplingClassifier

主要使用random-under-sampling的方法解决数据不平衡的问题。

4、overSamplingClassifier

主要使用over-sampling的方法解决数据不平衡的问题,包括:SMOTE、AdaSyn和RandomOverSampling方法。

5、puLearningPredict

主要使用的是positive-unlabeled-learning的方法解决数据不平衡的问题,这里采用解决pu-learning问题的两种主流算法:pu-bagging和基于two-step思想的算法。

其他

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python科研项目_通过科研人员论文项目等数据,训练识别导师/学生的分类器 的相关文章

随机推荐

  • msrcr算法matlab代码_图像处理之Retinex增强算法(SSR、MSR、MSRCR)

    视网膜 大脑皮层 Retinex 理论认为世界是无色的 人眼看到的世界是光与物质相互作用的结果 也就是说 映射到人眼中的图像和光的长波 R 中波 G 短波 B 以及物体的反射性质有关 其中I是人眼中看到的图像 R是物体的反射分量 L是环境光
  • MacOS编译NGINX1.17

    背景 使用Mac的开发者大多数的时候通过 brew 命令安装各类软件 比如 PHP Python Nodejs Nginx 也不例外 默认情况下Nginx安装在 usr local Cellar nginx 通过brew link ngin
  • ImportError: ERROR: recursion is detected during loading of “cv2“ binary extensions. Check OpenCV in

    1 import cv2错误 ImportError ERROR recursion is detected during loading of cv2 binary extensions Check OpenCV installation
  • C/C++语言图形化窗口创建,与设置。

    1 首先我们要引入头文件 include
  • log4j2远程代码执行漏洞原理与漏洞复现(基于vulhub,保姆级的详细教程)

    漏洞原理 啥是log4j2 log4j2是apache下的java应用常见的开源日志库 是一个就Java的日志记录工具 在log4j框架的基础上进行了改进 并引入了丰富的特性 可以控制日志信息输送的目的地为控制台 文件 GUI组建等 被应用
  • pybind11的安装以及库的使用(ubuntu20.14)

    目录 1 安装第三方库 2 安装pybind11 1 源码下载 2 编译安装 1 安装第三方库 sudo apt get install cmake 3 18 2 已经安装cmake 升级一下 sudo pip install upgrad
  • Matlab数据统计与分析(一)

    本文主要讲述matlab在统计分析中的一些简单应用 后续还将推出多项式计算 数据插值及其应用 曲线拟合及其应用 敬请期待 一 求最大元素与最小元素 max 求向量或矩阵的最大元素 min 求向量或矩阵的最小元素 调用格式如下 1 y max
  • 单细胞专题

    单细胞测序的概念 上节我们讲到转录组测序相关内容 这期将继续学习单细胞转录组测序 单细胞测序技术 single cell sequencing 简单来说 就是在单个细胞水平上 对基因组 转录组及表观基因组进行测序分析的技术 图1 图1 单细
  • 借助云开发搭建专属技术博客微信小程序(附源码)

    导语 一直对小程序开发很感兴趣 之前就准备做一款属于自己的小程序 无奈还需要购买云服务器和部署后台 有点麻烦 自从知道有了云开发这个免去服务器搭建和运维的一站式后端云服务 神器 就一鼓作气花了几个周末的时间做了一款自己的博客小程序 如果你也
  • ES写入性能的提升方案

    从社区上看到一个问题 回答了一下 总结了下提高写入性能的方案 服务端 1 refresh refresh interval 1s indices memory index buffer size 10 2 translog Index tr
  • vSphere使用技巧:自定义管理规范使用

    本文转载至 http blog chinaunix net uid 21089721 id 1565198 html 一 前言 我们在使用vCenter Client的时候 常常会使用模板来安装服务器 但是这样就会带来一些问题 例如WIND
  • Windows通过某端口号找对应的进程窗口句柄

    以下为 Qt通过netstat exe程序获取相关信息 通过端口号获取进程ID 的姊妹篇 通过端口号找对应的窗口句柄 以上所提及的API 均为Win32的系统API 不涉及Qt的相关方法
  • Shell Sort 希尔排序

    希尔排序 Shell Sort 又叫做缩小增量排序 diminishing increment sort 是一种很优秀的排序法 算法本身不难理解 也很容易实现 而且它的速度很快 插入排序 Insertion Sort 的一个重要的特点是 如
  • Oracle中没有 if exists(...)

    对于Oracle中没有 if exists 的语法 目前有许多种解决方法 这里先分析常用的三种 推荐使用最后一种 第一种是最常用的 判断count 的值是否为零 如下 declare v cnt number begin select co
  • 如何搭建自己的服务器机房

    1 地下室这种环境 铲成毛坯先做一遍防水防潮抗震套餐 这个便宜 相对 2 找国家电网拉两个不一样变电站的电线杆子来做380V 之前做过一个机房的这种需求 也就二百来万吧 3 每个运营商 不同机房 做两个方向两个井 两条8 16芯缆 运营商大
  • HTML5 详细介绍 及应用实例

    HTML5 概况 什么是 HTML5 HTML 5有两大特点 首先 强化了 Web 网页的表现性能 其次 追加了本地数据库等 Web 应用的功能 HTML 5是近十年来Web开发标准最巨大的飞跃 和以前的版本不同 HTML 5并非仅仅用来表
  • [MySQL]事务ACID详解

    专栏简介 MySql数据库从入门到进阶 题目来源 leetcode 牛客 剑指offer 创作目标 记录学习MySql学习历程 希望在提升自己的同时 帮助他人 与大家一起共同进步 互相成长 学历代表过去 能力代表现在 学习能力代表未来 目录
  • 版本管理工具——SVN

    SVN的下载和安装 1 1SVN服务器端的安装和配置 1 2SVN客户端的安装和配置 SVN的基本操作 SVN的常见问题 3 1解决文件提交冲突 一 SVN服务器端的安装和配置 1 VisualSVN下载 http www visualsv
  • 国内及Github优秀开发人员列表

    自从入了Android软件开发的行道 解决问题和学习过程中免不了会参考别人的思路 浏览博文和门户网站成了最大的入口 下面这些列表取名为 国内及Github优秀开发人员列表 就是浏览后的成果 虽然下述列表出自Android软件开发 文章定为不
  • python科研项目_通过科研人员论文项目等数据,训练识别导师/学生的分类器

    student and teacher classifier 通过科研人员论文项目等数据 训练识别导师 学生的分类器 代码包括特征选择基础 网格搜索确定特征选择方法参数 不平衡数据的处理 oversampling和undersampling