创建 HuggingFace 数据集来训练 BIO 标记器

2023-12-10

我有一个字典列表：

sentences = [ 
{'text': ['I live in Madrid'], 'labels':[O, O, O, B-LOC]},
{'text': ['Peter lives in Spain'], 'labels':[B-PER, O, O, B-LOC]},
{'text': ['He likes pasta'], 'labels':[O, O, B-FOOD]},
...
]

我想从这些数据创建一个 HuggingFace 数据集对象，以便稍后可以对其进行预处理并更轻松地馈送到变压器模型，但到目前为止我还没有找到可行的方法来做到这一点。

首先，您需要一些额外的库来使用指标和数据集功能。

pip install -U transformers datasets evaluate seqeval

将 dict 列表转换为 Dataset 对象

import pandas as pd
from datasets import Dataset

sentences = [ 
{'text': 'I live in Madrid', 'labels':['O', 'O', 'O', 'B-LOC']},
{'text': 'Peter lives in Spain', 'labels':['B-PER', 'O', 'O', 'B-LOC']},
{'text': 'He likes pasta', 'labels':['O', 'O', 'B-FOOD']},
]


ds = Dataset.from_pandas(pd.DataFrame(data=sentences))

将数据集转换为“Trainer-able”数据集对象

from datasets import Dataset
from datasets import ClassLabel

# Define a Classlabel object to use to map string labels to integers.
classmap = ClassLabel(num_classes=4, names=['B-LOC', 'B-PER', 'B-FOOD', 'O'])


train_sentences = [ 
{'text': 'I live in Madrid', 'labels':['O', 'O', 'O', 'B-LOC']},
{'text': 'Peter lives in Spain', 'labels':['B-PER', 'O', 'O', 'B-LOC']},
{'text': 'He likes pasta', 'labels':['O', 'O', 'B-FOOD']},
]

# Map text to tokenizer ids.
ds = ds.map(lambda x: tokenizer(x["text"], truncation=True))

# Map labels to label ids.
ds = ds.map(lambda y: {"labels": classmap.str2int(y["labels"])})

要使用您拥有的标记输入计算指标：

import evaluate

metric = evaluate.load("seqeval")


def compute_metrics(p):
    predictions, labels = p
    predictions = predictions.argmax(axis=2)
    # Remove ignored index (special tokens)
    true_predictions = [
        [label_list[p] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    true_labels = [
        [label_list[l] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    results = metric.compute(predictions=true_predictions, references=true_labels)
    return {
        "precision": results["overall_precision"],
        "recall": results["overall_recall"],
        "f1": results["overall_f1"],
        "accuracy": results["overall_accuracy"],
    }

与使用`Trainer` object

import pandas as pd
import evaluate

from datasets import Dataset
from datasets import ClassLabel

from transformers import AutoModelForTokenClassification, Trainer, AutoTokenizer, DataCollatorForTokenClassification

# Define a Classlabel object to use to map string labels to integers.
classmap = ClassLabel(num_classes=4, names=['B-LOC', 'B-PER', 'B-FOOD', 'O'])

train_sentences = [ 
{'text': 'I live in Madrid', 'labels':['O', 'O', 'O', 'B-LOC']},
{'text': 'Peter lives in Spain', 'labels':['B-PER', 'O', 'O', 'B-LOC']},
{'text': 'He likes pasta', 'labels':['O', 'O', 'B-FOOD']},
]

eval_sentences = [
    {"text": "I like pasta from Madrid , Spain", 'labels': ['O', 'O', 'B-FOOD', 'O', 'B-LOC', 'O', 'B-LOC']}
]

ds_train = Dataset.from_pandas(pd.DataFrame(data=train_sentences))
ds_eval = Dataset.from_pandas(pd.DataFrame(data=eval_sentences))

model = AutoModelForTokenClassification.from_pretrained("distilbert-base-multilingual-cased",
                                                        id2label={i:classmap.int2str(i) for i in range(classmap.num_classes)},
                                                        label2id={c:classmap.str2int(c) for c in classmap.names},
                                                        finetuning_task="ner")
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-multilingual-cased")
data_collator = DataCollatorForTokenClassification(tokenizer)


ds_train = ds_train.map(lambda x: tokenizer(x["text"], truncation=True))
ds_eval = ds_eval.map(lambda x: tokenizer(x["text"], truncation=True))

ds_train = ds_train.map(lambda y: {"labels": classmap.str2int(y["labels"])})
ds_eval = ds_eval.map(lambda y: {"labels": classmap.str2int(y["labels"])})


metric = evaluate.load("seqeval")


def compute_metrics(p):
    predictions, labels = p
    predictions = predictions.argmax(axis=2)
    # Remove ignored index (special tokens)
    true_predictions = [
        [label_list[p] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    true_labels = [
        [label_list[l] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    results = metric.compute(predictions=true_predictions, references=true_labels)
    return {
        "precision": results["overall_precision"],
        "recall": results["overall_recall"],
        "f1": results["overall_f1"],
        "accuracy": results["overall_accuracy"],
    }

# Initialize our Trainer
trainer = Trainer(
    model=model,
    train_dataset=ds_train,
    eval_dataset=ds_eval,
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)


trainer.train()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

创建 HuggingFace 数据集来训练 BIO 标记器的相关文章

决策树和规则引擎 (Drools)

In the application that I m working on right now I need to periodically check eligibility of tens of thousands of object
我可以通过在 Android Activity 中声明适当的成员“静态”来提高效率吗

如果一个 Activity 在实践中是单例我认为我可以通过声明适当的成员静态来获得一些效率且风险为零是的 The Android 文档说 http developer android com guide topics fundam
WCF 服务主机配置 - 请尝试将 HTTP 端口更改为 8732

我的 PC 上运行着一个复杂的基于 WCF 服务的解决方案但由于安装 Windows 8 1 时出现问题我不得不刷新我的 PC 现在我已经重新安装了 Visual Studio 2012 我的项目不再正常运行当我调试单元测试时 w
Java中单例的其他方式[重复]

这个问题在这里已经有答案了只是我在考虑编写单例类的其他方法那么这个类是否被认为是单例类呢 public class MyClass static Myclass myclass static myclass new MyClass pr
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
mybatis：使用带有 XML 配置的映射器接口作为全局参数

我喜欢使用 XML 表示法来指定全局参数例如连接字符串我也喜欢 Mapper 注释当我尝试将两者结合起来时我得到这个例外 https stackoverflow com questions 4263832 type interfac
Matplotlib loglog 的错误刻度/标签（双轴）

我正在使用 matplotlib 创建对数图如下图所示默认刻度选择得很糟糕充其量是这样右边的 y 轴甚至根本没有在线性等效中确实如此而两个 x 轴都只有一个有没有办法获得合理数量的带有标签的刻度 without为每个情节手动指
如何为命令 stdout 添加 [stdout] 和 [stderr] 前缀？

使用命令结构 https doc rust lang org std process struct Command html 如何向 stdout 和 stderr 缓冲区添加前缀我希望输出看起来像这样 stdout things are
将客户端库添加到 Razor 类库

我正在学习 Blazor 我注意到创建 Razor 类库是一个很好的做法您将在其中定义大部分组件这样您就可以在客户端或服务器中使用它们而不会出现太多问题在不同的框架中我习惯于以 SASS 形式包含库作为引导程序这样我就可以在我的
区分 NaN 输入和输入类型为“number”的空输入

我想使用 type number 的表单输入并且只允许输入数字
$ 在 JQuery 中意味着什么

在下面的 var obj one 1 two 2 three 3 four 4 five 5 each obj function i val console log val 这里是什么意思是对象吗是一个别名jQuery对象函数它充当
如何将 SQLite 数据库捆绑到 Go 二进制文件中？

我尝试使用 go bindata 和 packr 但这些包没有显示如何将 SQLite 数据库文件打包到二进制文件中我不需要以任何方式更新数据库我只想在启动时从中读取数据如何将 SQLite 数据库文件嵌入到 Go 二进制文件中 SQ
在DialogFragment中，onCreate应该做什么？

我目前正在摆弄 DialogFragment 以学习使用它我假设相比onCreateView onCreate 可以这样做 public void onCreate Bundle savedInstanceState super onCr
如何禁用 solr 管理页面

对于生产来说拥有一个甚至不要求登录凭据的 solr 管理员感觉不安全如何禁用默认的 solr 管理页面我只是希望我的 web 应用程序使用 Solr 进行搜索词索引我强烈建议保留管理页面用于调试目的它在很多情况下拯救了我有多种方
在成为FirstResponder或resignFirstResponder的情况下将对象保持在键盘顶部？

我目前在键盘顶部有一个 UITextField 当您点击它时它应该粘在键盘顶部并平滑地向上移动我不知道键盘的具体时长和动画类型所以确实很坎坷这是我所拥有的 theTextView resignFirstResponder UIVie
Rails - 渲染：目标锚标记的操作？

我希望像这样使用渲染 render action gt page form 我也尝试过这个 render template gt site page form 那也没用这个特定页面上的表单位于最底部如果提交时发生任何错误我不希望用户被
是否可以使用 Dapper 流式传输大型 SQL Server 数据库结果集？

我需要从数据库返回大约 500K 行请不要问为什么然后我需要将这些结果保存为 XML 更紧急并将该文件通过 ftp 传输到某个神奇的地方我还需要转换结果集中的每一行现在这就是我正在做的事情 TOP 100结果使用 Dappe
为什么 try catch 块没有捕获 Promise 异常？

我对承诺的错误处理感到困惑答案可能很明显但我不明白我有以下示例代码 var test async function throw new Error Just another error try test then catch err
通过 Telnet 运行应用程序

我需要创建一个 BAT 文件来通过 telnet 运行应用程序但据我所知在 DOS 上无法执行此操作 Telnet 不允许在连接的瞬间向远程计算机发送任何命令并且 BAT 文件中的每个后续命令只有在 telnet 停止后才会执行这段
R data.table 1.9.2 关于 setkey 的问题

这似乎是 1 8 10 后引入的一个错误与包含列表的 DT 的 setkey 相关运行下面两个代码来查看问题 library data table dtl lt list dtl 1 lt data table scenario 1 p

随机推荐

JavaScript 关键字“with”真的被弃用了吗？

使用JavaScriptwith长期以来语句一直被认为是不好的编码实践并被建议不要这样做这一页表明with已被弃用并且在严格模式下会抛出错误我的浏览器在使用时会抛出错误with在严格模式下 Google Closure Compi
动态创建的脚本不会阻止渲染？

在本文中 https www html5rocks com en tutorials speed script loading 他们在说动态创建并添加到文档中的脚本默认是异步的它们不会阻止渲染但执行javascript 总是阻塞渲染
如何对 URL 的西里尔字符进行编码然后解码？

我在一页上有一个表格
根据 Java 中的 Swagger 定义验证 JSON 消息

我使用 Swagger 定义创建了一个 REST API 现在我需要使用该 swagger 架构验证传入消息我找到了几种解决方案但它们都依赖于某些特定的用例最接近我需要的是this正如它的描述所示它与提供的 json 模式配合得很好
无法上传 apk：READ_EXTERNAL_STORAGE 具有不同的 maxSdkVersions

这是我第一次在这里提问不管怎样正如标题所说我正在尝试将我的应用程序推向市场当我尝试上传签名的 apk 时出现错误上传失败具有不同 maxSdkVersions 的重复权限声明 android permission READ EX
Facebook App Invites iOS v4 SDK 错误

我已经仔细检查了所有内容根据我的理解这就是我需要做的 self inviteContent FBSDKAppInviteContent alloc initWithAppLinkURL NSURL URLWithString http
Asterisk-如何使用 ChanSpy() 或任何替代方法“耳语”音乐？ [关闭]

Closed 这个问题需要多问focused 目前不接受答案我打算向其中一位会议参与者耳语音乐消息文件而不让其他会议参与者听到此消息我浏览了 Asterisk Cookbook 中的音频操作章节 http ofps oreill
如何在 Objective-C iphone sdk 中迭代嵌套字典

您好我有一个 json 字符串已通过 JSON 框架转换为字典我需要提取其内容我怎样才能迭代到嵌套字典我已经有了这段代码可以让我查看字典 NSDictionary results responseString JSONValue
如何使用 nav.popTo() (ionic 2)？

我正在使用导航控制器要返回我可以使用 nav pop 但是如果我需要转到其他页面不是最后一个页面如何使用 nav popTo constructor nav NavController this nav nav this nav p
Numpy int 位长度

我想找到以二进制表示无符号 numpy 整数或整数数组中的每个元素所需的位数就像 python 的int bit length 确实如此但 numpy 似乎没有等效的功能例如 gt gt gt int 0b1000 bit len
如何防止 Dockerfile 缓存 git clone

我有一个 Dockerfile 试图将 Web 应用程序打包并部署到容器中应用程序的代码在 Docker 镜像构建期间从 git 存储库获取这是 Dockerfile 快照 RUN git clone depth 1 git repos
在 openpyxl 中格式化图表数据标签

我正在使用 Python 3 6 3 使用 openpyxl 2 4 9 编写一些 Excel 工作表在图表数据上获取数据标签并不明显但当我尝试格式化所述数据标签时事情开始变得糟糕我想要做的是改变他们的位置并改变他们的轮换有人有什
PDO Mysql 语法错误 1064 [已关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心我运行以下代码 conn new PDO pdo at
PyQt 中的 QKeyPress 事件

我的软件有问题在我的钢琴软件中如果我一直按下键盘上的某个键那么它就会发出该特定键的多个重复的相同音调但实际上我需要一个单一的音调直到释放该特定的键我提供了检测 keyPress 事件并调用相应方法的代码的一部分那么我应该对我的
用于 HTTPS 抓取的 Jsoup Cookie

我正在尝试使用此网站在欢迎页面上收集我的用户名来学习 Jsoup 和 Android 使用以下代码 Connection Response res Jsoup connect http www mikeportnoy com forum l
如何将 Spinner 默认值设置为 null？

我正在尝试加载一个没有选定值的微调器一旦用户选择了一个值它就会将他们带到另一个页面事实证明这是一个问题因为目前页面只是在用户做出选择之前立即加载我的 spinner 类的设置方式与 Google 的相同 http develope
使用 document.body.innerHTML.replace 有多安全？

正在运行类似的东西 document body innerHTML document body innerHTML replace 旧值新值危险的我担心某些浏览器可能会搞乱整个页面而且由于这是 JS 代码这些代码将被放置在我无法控
如何获取当前 .exe 的哈希值？

SOLVED 我复制了该文件并在该副本上运行了哈希器我需要我的应用程序来查找 EXE 当前的 MD5 我可以获取任何文件的MD5 但是无论我做什么我都无法获得 FileStream 来读取打开的 EXE 我尝试使用 FileOptio
修改 google.translate.TranslateElement 结果中的元素

我正在尝试将非常方便的 Google Translate 翻译元素嵌入到网页中这非常简单并且效果很好但我需要更改在生成的 HTML 中显示的默认文本在使用过许多 Google API 和 js 库后我认为这不会有问题因为它几乎肯定
创建 HuggingFace 数据集来训练 BIO 标记器

我有一个字典列表 sentences text I live in Madrid labels O O O B LOC text Peter lives in Spain labels B PER O O B LOC text He lik