具有多个 bert 输入的 SMOTE

2024-01-08

我正在使用 Keras 和 Bert (HuggingFace) 构建多类文本分类模型,但我有一个非常不平衡的数据集。我使用了 Sklearn 中的 SMOTE 来为欠平衡类生成额外的样本(我总共有 45 个),当我使用 Bert Tokenizer 中的输入 id 时,它工作得很好。

但是,我希望能够使用 smote 作为输入掩码 id,以便模型能够确定填充值的位置。

我的问题是如何将 smote 用于输入 id 和掩码 id?到目前为止,我已经完成了以下操作,并且模型没有抱怨,但我不确定重新采样的掩码是否与重新采样的输入 id 行匹配。 Smote 需要两个输入,即输入和标签,因此我使用相同的随机状态复制了该过程,并且只返回了所需的元素:

def smote(input_ids, input_masks, labels):

    smote = SMOTE("not majority", random_state=27)

    input_ids_resampled, labels_resampled = smote.fit_sample(input_ids, labels)
    input_masks_resampled, _ = smote.fit_sample(input_masks, labels)

    return input_ids_resampled, input_masks_resampled, labels_resampled

这是可以接受的吗?有一个更好的方法吗?


我只是想澄清一下,这是将 SMOTE 应用于 input_ ids 的错误方法。您需要将相应的嵌入到CLS中。使用 BERT 获取每条推文的 CLS 令牌,然后对其应用 SMOTE。然后从分类器(任何分类器)传递它。这应该无需微调即可完成。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

具有多个 bert 输入的 SMOTE 的相关文章

随机推荐

  • SQL/VBA:如何按从每月第一天以外的一天开始的会计年度进行分组

    我正在尝试 使用 MS Access 按会计年度对一些数据进行分组 该会计年度可能与日历年度不同 如果每个会计年度总是从给定月份的第一天开始 那么解决方案很简单 可以简单地使用如下 if 语句 FY IIf Month orderdate
  • 使用 Handlebars 重复查找

    给定一个对象数组 我想使用嵌套对象的一个 属性来查找 Handlebars 中关联对象的各种属性 在此示例中 我想显示每所大学的学生列表 以及每个学生所属院系的信息 我的代码有效 但嵌套查找非常重复 lookup lookup majors
  • 检测脚本的位置而不是调用它的页面

    我想知道是否可以以某种方式找到脚本的位置而不是调用它的页面 例如如果页面是http xxx yyy com a htm http xxx yyy com a htm 然后我写了 location href 我得到了那个位置而不是http a
  • 从 C++ 访问 QML 对象

    以下是将 QML 文档加载到 C 中的代码 QmlDocument qml QmlDocument create asset main qml parent this Create root object for the UI Abstra
  • SelectionStart 和 SelectionEnd 对于文本区域意味着什么?

    我遇到了以下代码片段 将 Enter 插入到按下 ctrl Enter 的文本区域中的文本中 txtChatMessage keydown MessageTextOnKeyEnter function MessageTextOnKeyEnt
  • Swift 中的懒惰

    Why is lazy这里用的 extension SequenceType func mapSome u transform Generator Element gt U gt U var result U for case let x
  • 在haskell中剖析java类文件

    我今年早些时候刚刚开始学习 Haskell 语言 并且正在开发一个项目 该项目输入一个 java 类文件 即 FileName1 class 并剖析该文件以打印出以下内容 类文件定义的类名 类的方法数量 它们的名称和类型 我做了一些研究 发
  • C# 数据库应用程序并发

    我曾经用 C 编写过一个多用户应用程序 使用 SQL Server 2005 Express 作为后端 我有一个订单集合 为了使用此类 您需要实例化它并调用 Load CustomerCode 方法 以便使用指定客户的订单填充集合 我的问题
  • Vb.Net 属性语法

    我问过我的同事 甚至试图在互联网上查找这个问题 但我一直无法得到答案 有什么区别 Public Property Name As String and Public Property Name As String 在属性名称后面添加 有什么
  • 如何使这个简单的 OpenGL 代码(在“宽松”的 3.3 和 4.2 配置文件中工作)在严格的 3.2 和 4.2 核心配置文件中工作?

    我有一些 3D 代码 我注意到它们不会在严格的核心配置文件中呈现 但在 正常 未明确请求仅作为核心 配置文件上下文中正常 为了隔离这个问题 我编写了最简单的 OpenGL 程序 仅绘制一个三角形和一个矩形 我已经发布了OpenGL程序作为这
  • ASP.NET MVC - 简单面包屑(站点地图)

    我开发了一个 ASP NET MVC 2 应用程序 我想在每个页面中放置一个简单的面包屑 站点地图 如下所示 首页 gt 电影 gt 详情 它等于 URL http localhost home movies details http lo
  • 带有页眉、页脚和正文的简单 div

    我需要一个简单的div with header footer and body content The header and footer需要是fixed和heightdiv 的应该是250px or max 500px和它的width i
  • 从标准输入 C++ 读取数百万个整数的最快方法?

    我正在开发一个排序项目 现在主要瓶颈是读取数据 我的程序需要大约 20 秒才能对从 stdin 读取的 100 000 000 个整数进行排序cin and std ios sync with stdio false 但事实证明 其中 10
  • jquery 事件在附加后不起作用

    http jsfiddle net YsnhT 2 http jsfiddle net YsnhT 2 Jquery 事件在追加后不起作用 单击 保存 按钮后 我需要文本区域的值 span8 on click btn function va
  • 调用生成的 Serializer() 方法时收到 NoClassDefFoundError

    我得到了NoClassDefFoundError当尝试调用Foo serializer 上的方法 Serializable class 这是我的测试用例 Serializable data class Foo val data String
  • XMLHttpRequest 基本身份验证失败

    知道为什么吗XMLHttpRequest具有正确的凭据Pebble JS Framework http developer getpebble com 2 guides javascript guide html在 Android 上无法进
  • 铁路搜索表

    我正在创建一个跟踪用户和成就的应用程序 例如 xbox live 等 这些表通过连接表链接 我希望在我的索引上有一个搜索表单 让用户输入用户名 然后加载一个新页面 其中包含用户已获得的所有成就的列表 我不完全确定如何在索引上设置此搜索表单
  • 你能在Sqlite3(使用Django)中实现不区分大小写的“唯一”约束吗?

    假设我正在使用 Python 2 5 的内置默认 sqlite3 并且我有一个包含以下代码的 Django 模型类 class SomeEntity models Model some field models CharField max
  • 动态构建 SQL 查询(postgres 和 javascript)

    我有一个 javascript 函数需要返回产品列表 它使用 postgres 来检索产品列表 该函数传递一个categoryId和一个可选的typeId 所以我需要基于这些构建一个 SQL 查询 当然我可以做这样的事情 async fun
  • 具有多个 bert 输入的 SMOTE

    我正在使用 Keras 和 Bert HuggingFace 构建多类文本分类模型 但我有一个非常不平衡的数据集 我使用了 Sklearn 中的 SMOTE 来为欠平衡类生成额外的样本 我总共有 45 个 当我使用 Bert Tokeniz