使用 Huggingface 转换器进行命名实体识别，映射回完整实体

2024-05-01

我正在查看文档用于命名实体识别的 Huggingface 管道 https://huggingface.co/transformers/task_summary.html#named-entity-recognition，我不清楚这些结果如何用于实际的实体识别模型。

例如，给出文档中的示例：

>>> from transformers import pipeline

>>> nlp = pipeline("ner")

>>> sequence = "Hugging Face Inc. is a company based in New York City. Its headquarters are in DUMBO, therefore very"
...            "close to the Manhattan Bridge which is visible from the window."

This outputs a list of all words that have been identified as an entity from the 9 classes     defined above. Here is the expected results:

print(nlp(sequence))

[
{'word': 'Hu', 'score': 0.9995632767677307, 'entity': 'I-ORG'},
{'word': '##gging', 'score': 0.9915938973426819, 'entity': 'I-ORG'},
{'word': 'Face', 'score': 0.9982671737670898, 'entity': 'I-ORG'},
{'word': 'Inc', 'score': 0.9994403719902039, 'entity': 'I-ORG'},
{'word': 'New', 'score': 0.9994346499443054, 'entity': 'I-LOC'},
{'word': 'York', 'score': 0.9993270635604858, 'entity': 'I-LOC'},
{'word': 'City', 'score': 0.9993864893913269, 'entity': 'I-LOC'},
{'word': 'D', 'score': 0.9825621843338013, 'entity': 'I-LOC'},
{'word': '##UM', 'score': 0.936983048915863, 'entity': 'I-LOC'},
{'word': '##BO', 'score': 0.8987102508544922, 'entity': 'I-LOC'},
{'word': 'Manhattan', 'score': 0.9758241176605225, 'entity': 'I-LOC'},
{'word': 'Bridge', 'score': 0.990249514579773, 'entity': 'I-LOC'}
]

虽然这一点本身就令人印象深刻，但我不清楚从以下位置获取“DUMBO”的正确方法：

{'word': 'D', 'score': 0.9825621843338013, 'entity': 'I-LOC'},
{'word': '##UM', 'score': 0.936983048915863, 'entity': 'I-LOC'},
{'word': '##BO', 'score': 0.8987102508544922, 'entity': 'I-LOC'},

---或者甚至是更清晰的多个标记匹配，例如将“纽约市”与简单的“约克”市区分开来。

虽然我可以想象启发式方法，但根据您的输入将这些标记重新连接到正确的标签中的正确预期方法是什么？

当您设置参数时，管道对象可以为您执行此操作：

变压器 : 分组实体 https://huggingface.co/transformers/v4.6.0/main_classes/pipelines.html#transformers.TokenClassificationPipeline to True.
变形金刚 >= 4.7.0: 聚合策略 https://huggingface.co/docs/transformers/main_classes/pipelines#transformers.TokenClassificationPipeline.aggregation_strategy to simple

from transformers import pipeline

#transformers < 4.7.0
#ner = pipeline("ner", grouped_entities=True)

ner = pipeline("ner", aggregation_strategy='simple')

sequence = "Hugging Face Inc. is a company based in New York City. Its headquarters are in DUMBO, therefore very close to the Manhattan Bridge which is visible from the window."

output = ner(sequence)

print(output)

Output:

[{'entity_group': 'I-ORG', 'score': 0.9970663785934448, 'word': 'Hugging Face Inc'}
, {'entity_group': 'I-LOC', 'score': 0.9993778467178345, 'word': 'New York City'}
, {'entity_group': 'I-LOC', 'score': 0.9571147759755453, 'word': 'DUMBO'}
, {'entity_group': 'I-LOC', 'score': 0.9838141202926636, 'word': 'Manhattan Bridge'}
, {'entity_group': 'I-LOC', 'score': 0.9838141202926636, 'word': 'Manhattan Bridge'}]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

huggingfacetransformers

使用 Huggingface 转换器进行命名实体识别，映射回完整实体的相关文章

pytorch 摘要因 Huggingface 模型而失败

我想要一个总结PyTorch从huggingface下载的模型我在这里做错了什么吗 from torchinfo import summary from transformers import AutoModelForSequenceCl
估计给定句子的标记概率/逻辑，而不计算整个句子

我有这样一句话 I like sitting in my new chair and about life 我有一组特定的令牌例如 watch run think apple light 我想计算每个标记作为该不完整句子中的下一个单词出现
Huggingface - 飞马座 PegasusTokenizer 为 None

尝试使用tuner007 pegasus paraphrase 按照中的示例进行操作Pegasus Pegasus模型于2019年12月18日在 PEGASUS Pre training with Extracted Gap sentenc
创建 HuggingFace 数据集来训练 BIO 标记器

我有一个字典列表 sentences text I live in Madrid labels O O O B LOC text Peter lives in Spain labels B PER O O B LOC text He lik
将 HuggingFace Trainer 与 Ray Tune 结合使用时，“无法 pickle _thread.RLock 对象”

我尝试使用TrainerHuggingFace 变压器中的函数来训练模型并使用ray tune用于超参数搜索我可以在 Google Colab 中运行代码而不会出现错误但是当我使用远程计算机通过 ssh 运行代码时会出现错误 Trac
如何使用 BertForMaskedLM 或 BertModel 来计算句子的困惑度？

我想使用 BertForMaskedLM 或 BertModel 来计算句子的困惑度所以我编写了这样的代码 import numpy as np import torch import torch nn as nn from transf
Huggingface Transformer 问题答案置信度得分

我们如何从huggingface转换器问题答案的示例代码中获取答案置信度得分我看到管道确实返回了分数但是下面的核心也可以返回置信度分数吗 from transformers import AutoTokenizer TFAutoMode
令牌索引序列长度比使用拥抱面部情感分类器的该模型指定的最大序列长度 (651 > 512) 长

我试图借助拥抱面部情绪分析预训练模型来获取评论的情绪它返回错误例如Token indices sequence length is longer than the specified maximum sequence length fo
具有多个 bert 输入的 SMOTE

我正在使用 Keras 和 Bert HuggingFace 构建多类文本分类模型但我有一个非常不平衡的数据集我使用了 Sklearn 中的 SMOTE 来为欠平衡类生成额外的样本我总共有 45 个当我使用 Bert Tokeniz
“正在使用bos_token，但尚未设置”是什么意思？

当我运行 demo py 时 from transformers import AutoTokenizer AutoModel tokenizer AutoTokenizer from pretrained distilbert base
BERT 中 NER 的正确格式化数据应该是什么样子？

我正在使用 Huggingface 的transformers库并希望使用 BERT 执行 NER 我试图找到一个明确的示例说明如何使用 BERT 正确格式化 NER 的数据从我发现的论文和评论中我并不完全清楚假设我们有以下句子和标
Huggingface 分类与预测作斗争

我正在微调 longformer 然后使用进行预测TextClassificationPipeline and model inputs 方法我不确定为什么会得到不同的结果 import pandas as pd import datas
BERT 分词器和模型下载

我是初学者我正在和伯特一起工作但出于公司网络的安全考虑下面的代码并没有直接接收bert模型 tokenizer BertTokenizer from pretrained bert base multilingual cased do
为什么评估集会耗尽 pytorch 拥抱中的内存？

我使用的是相当大的 GPU 大约 80 GB 训练纪元运行良好但由于某种原因在评估时训练集和验证集或多或少具有相同的长度我内存不足并收到此错误 File home transformers trainer pt utils py li
为什么将模型上传到 HuggingFace 存储库的速度如此之慢？

我有一个问题我正在尝试将模型推送到 HuggingFace 存储库问题是它说上传过去 16 小时而这只是 pytorch model bin 文件大约 850MB 我用的是LFS 我尝试手动将文件添加到存储库这需要很长时间我不愿
训练新的 AutoTokenizer 拥抱脸部

收到此错误 AttributeError GPT2Tokenizer 对象没有属性 train new from iterator 与拥抱面部文档非常相似我更改了输入就是这样不应该影响它有一次就成功了 2小时后回来查看发现并没有
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
如何使用 Huggingface 变压器加载基于 llama 的微调 pef/lora 模型？

我已经关注了this https www youtube com watch v Us5ZFp16PaU教程 Colab笔记本 https colab research google com drive 14xo6sj4dARk8lXZbO
BertForSequenceClassification 是否在 CLS 向量上进行分类？

我正在使用抱脸变压器 https huggingface co transformers index html使用 PyTorch 打包和 BERT 我正在尝试进行 4 向情感分类并正在使用BertFor序列分类 https hugging
Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境

随机推荐

从 PHP 和 Timber/Twig 中的高级自定义字段中对转发器字段进行排序

我正在尝试使用 Twig 1 34 的 WordPress Timber 插件实现对 WordPress 插件高级自定义字段 ACF 的转发器字段的输出进行排序下面从 ACF 排序的基本 PHP 示例来自https www advance
将自定义累积函数应用于 pandas 数据框

我有一个按以下顺序排序的数据框date df pd DataFrame idx 1 1 1 2 2 2 date 2016 04 30 2016 05 31 2016 06 31 2016 04 30 2016 05 31 2016 06
Android-数据在微调器中分配，但选择时不显示微调器中的值

Problem我正在使用 Retrofit 从 mysql 获取一些产品类别数据即将到来并在微调器中分配但是当我选择一个项目时它不会显示在下拉菜单中项目已分配并且 setOnItemSelected 侦听器也正在工作但所选项目
在 Emacs 中自动完成 Bibtex 文件中的 Pandoc 风格引文

Pandoc 风格的引文 Pandoc http www johnmacfarlane net pandoc 使用 Markdown 格式支持使用 BibTeX 文件中的键自动引用该格式的一些示例如下 Blah blah doe99 B
客户端和服务器的 Git 分支结构

对于我的一门计算机科学课程我和一个小组正在使用客户端服务器架构编写一个应用程序我很好奇在 Git 存储库中组织项目的最佳实践是什么我的意思是我们是否应该像这样构建目录 ProjectDir Clients Client1 file
如何强制netbeans html自动完成使用双引号而不是单引号？

我正在使用 NetBeans 7 3 我喜欢它的自动完成功能然而在这个新的 7 3 版本中当我输入
熊猫系列名称

我试图将我的系列命名为 Points 但它没有显示为 Points Points pd Series 1 2 3 print Points name output None 我什至尝试重命名它但它仍然显示无 Points rename
增加图像亮度而不溢出

我在尝试增加图像亮度时遇到问题这是原始图像我想要得到的图像是这样的现在使用以下代码增加亮度 image cv2 imread home wni vbshare tmp a4 index2 png 0 if sum image 0 le
在 Android 中打开受密码保护的 ZIP？

有没有一个库或一个简单的方法如何在 Android 中打开受密码保护的 ZIP 存档我知道 ZIP 加密有不同类型我想打开最简单的一个在 Unix 中使用以下命令创建zip e命令可以在 Windows 中打开相同的文件将要求输入
复杂的 SOLR 查询，包括 NOT 和 OR

我对 SOLR 搜索有一些相当复杂的要求我需要针对标记内容的数据库执行这些搜索我需要首先过滤数据库以获取与我的过滤器标签匹配的结果任何具有黑名单中的标签的结果都应被删除除非它们也包含白名单中的标签假设我想检索所有标记为森林或
使用 JavaScript 或 PHP 自动检测用户当前本地时间

我经常需要根据用户的信息或受用户的影响来显示信息actual本地时间因时区而异是否有可靠的方法来获取用户的当前时间和或时区关键的问题服务器端代码基于网站主机或用户的ISP 客户端代码基于用户的系统时钟太容易被操纵关键问题是否有
VBA Excel 2010 - 直接从剪贴板粘贴

我正在尝试直接从剪贴板粘贴到 Excel 文档中并进行转置 Dim DataObj As MSForms DataObject Set DataObj New MSForms DataObject DataObj GetFromClipbo
如何在 Android Studio 中使用 4 空格宽制表符？

我正在 android studio 中创建一个 Flutter 应用程序在设置 gt 编辑器 gt 代码样式 gt Dart 下我启用了使用制表符并将制表符大小和缩进更改为 4 然而 main dart 文件中似乎没有任何变化
阿拉伯语的 tcpdf 将字符显示为问号 '?????? ???'

我想创建一个阿拉伯语 pdf 与我的 ms Execl 格式的文件相同在 php 中使用 tcpdf 创建 pdf 时阿拉伯字符显示为分数这些字符是从我的 Excel 文件中复制的 htmlcontent2 span color 0
Mac SQLite 编辑器[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我知道可可MySQL http cocoamysql sourceforge net 但我还没有见过 SQLite 的 Mac GUI 有
未定义的 C/C++ 符号作为运算符

我注意到字符符号和在 C C 中不用作运算符有谁知道原因或历史原因吗如果确实没有使用它使用 define 将这些符号定义为另一个运算符语句是否安全通常情况下 define只接受宏名称中的有效标识符所以你不能这样做 defi
如何处理 Django 嵌套模板标签

如何处理模板标记内的变量我需要为我的函数 send mail view 提供参数 urls py urlpatterns path send mail view
WebView2 下载进度

需要通过WebView2获取下载进度 https learn microsoft com en us dotnet api microsoft web webview2 core corewebview2downloadoperation
当我在角度中使用“key”而不是“keyCode”和“KeyboardEvent”时出现错误

我正在尝试为输入字段文本框创建自定义指令使其仅接受数字而不接受字母字符我有以下 only numbers directive ts 文件 import Directive ElementRef HostListener from a
使用 Huggingface 转换器进行命名实体识别，映射回完整实体

我正在查看文档用于命名实体识别的 Huggingface 管道 https huggingface co transformers task summary html named entity recognition 我不清楚这些结果如何用

使用 Huggingface 转换器进行命名实体识别，映射回完整实体

使用 Huggingface 转换器进行命名实体识别，映射回完整实体 的相关文章

随机推荐

热门标签

使用 Huggingface 转换器进行命名实体识别，映射回完整实体的相关文章