CoreNLP 如何识别小写的命名实体，例如 kobe bryant？

2024-05-02

我遇到一个问题，CoreNLP 只能识别以大写字符开头的命名实体，例如科比·布莱恩特 (Kobe Bryant)，但无法识别科比·布莱恩特 (kobe bryant) 作为一个人！那么CoreNLP如何识别以小写字符开头的命名实体？？？赞赏它！

首先，您必须承认，在小写或大小写不一致的英文文本中正确命名实体比在正式文本中更难，在正式文本中大写字母是一个很好的线索。（这也是中文 NER 比英文 NER 难的原因之一。）不过，为了让 CoreNLP 很好地处理小写文本，您必须做一些事情——默认模型经过训练，可以在精心编辑的文本上很好地工作。

如果您使用正确编辑的文本，则应使用我们默认的英文模型。如果您正在使用的文本（主要）是小写或大写，那么您应该使用下面提供的两种解决方案之一。如果它是真正的混合物（就像许多社交媒体文本），您可以使用下面的 truecaser 解决方案，或者您可以通过使用both带壳和无壳 NER 模型（作为给定的一长串模型）ner.model财产）。

方法一：无壳模型。我们还提供忽略大小写信息的英文模型。它们对所有小写文本的效果会更好。

方法 2：使用 truecaser。我们提供一个truecase注释器，尝试将文本转换为正式编辑的大写形式。您可以先应用它，然后使用常规注释器。

一般来说，我们不清楚这些方法中的一种通常或总是获胜。你可以两者都尝试一下。

重要的：要使用下面调用的额外组件，您需要下载英语模型罐 https://stanfordnlp.github.io/CoreNLP/download.html，并使其在您的类路径中可用。

这是一个例子。我们从示例文本开始：

% cat lakers.txt
lonzo ball talked about kobe bryant after the lakers game.

使用默认模型，找不到任何实体，并且它们的所有单词都只获得一个常见的名词标签。伤心！

% java edu.stanford.nlp.pipeline.StanfordCoreNLP -file lakers.txt -outputFormat conll -annotators tokenize,ssplit,pos,lemma,ner
% cat lakers.txt.conll 
1   lonzo   lonzo   NN  O   _   _
2   ball    ball    NN  O   _   _
3   talked  talk    VBD O   _   _
4   about   about   IN  O   _   _
5   kobe    kobe    NN  O   _   _
6   bryant  bryant  NN  O   _   _
7   after   after   IN  O   _   _
8   the the DT  O   _   _
9   lakers  laker   NNS O   _   _
10  game    game    NN  O   _   _
11  .   .   .   O   _   _

下面，我们要求使用无大小写模型，然后我们做得很好：所有名字词现在都被识别为专有名词，并且两个人名都被识别。但球队的名字仍然被遗忘。

% java edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat conll -annotators tokenize,ssplit,pos,lemma,ner -file lakers.txt -pos.model edu/stanford/nlp/models/pos-tagger/english-caseless-left3words-distsim.tagger -ner.model edu/stanford/nlp/models/ner/english.all.3class.caseless.distsim.crf.ser.gz,edu/stanford/nlp/models/ner/english.muc.7class.caseless.distsim.crf.ser.gz,edu/stanford/nlp/models/ner/english.conll.4class.caseless.distsim.crf.ser.gz
% cat lakers.txt.conll 
1   lonzo   lonzo   NNP PERSON  _   _
2   ball    ball    NNP PERSON  _   _
3   talked  talk    VBD O   _   _
4   about   about   IN  O   _   _
5   kobe    kobe    NNP PERSON  _   _
6   bryant  bryant  NNP PERSON  _   _
7   after   after   IN  O   _   _
8   the the DT  O   _   _
9   lakers  lakers  NNPS    O   _   _
10  game    game    NN  O   _   _
11  .   .   .   O   _   _

相反，您可以在 POS 标记和 NER 之前运行 truecasing：

% java edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat conll -annotators tokenize,ssplit,truecase,pos,lemma,ner -file lakers.txt -truecase.overwriteText
% cat lakers.txt.conll 
1   Lonzo   Lonzo   NNP PERSON  _   _
2   ball    ball    NN  O   _   _
3   talked  talk    VBD O   _   _
4   about   about   IN  O   _   _
5   Kobe    Kobe    NNP PERSON  _   _
6   Bryant  Bryant  NNP PERSON  _   _
7   after   after   IN  O   _   _
8   the the DT  O   _   _
9   Lakers  Lakers  NNPS    ORGANIZATION    _   _
10  game    game    NN  O   _   _
11  .   .   .   O   _   _

现在，该组织Lakers被识别，并且通常几乎所有实体词都被标记为具有正确实体标签的专有名词，但它无法获得ball，它仍然是一个普通名词。当然，在不区分大小写的文本中，这是一个相当难正确表达的单词，因为ball是一个相当常见的普通名词。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

stanfordnlp

CoreNLP 如何识别小写的命名实体，例如 kobe bryant？的相关文章

两个整数乘积的模

我必须找到c c a b mod m a b c m 是 32 位整数但 a b 可以超过 32 位我正在尝试找出一种计算 c 的方法而不使用 long 或任何 gt 32 位的数据类型有任何想法吗如果m是质数事情可以简化吗注
垃圾收集器如何在幕后工作来收集死对象？

我正在阅读有关垃圾收集的内容众所周知垃圾收集会收集死亡对象并回收内存我的问题是 Collector 如何知道任何对象已死亡它使用什么数据结构来跟踪活动对象我正在研究这个问题我发现GC实际上会跟踪活动对象并标记它们每个未标记的
如何在 Java 中向时间戳添加/减去时区偏移量？

我正在使用 JDK 8 并且玩过ZonedDateTime and Timestamp很多但我仍然无法解决我面临的问题假设我得到了格式化的Timestamp在格林威治标准时间 UTC 我的服务器位于某处假设它设置为Asia Calcu
java inputstream 打印控制台内容

sock new Socket www google com 80 out new BufferedOutputStream sock getOutputStream in new BufferedInputStream sock getI
Runtime.exec 处理包含多个空格的参数

我怎样才能进行以下运行 public class ExecTest public static void main String args try Notice the multiple spaces in the argument Str
Mockito 使用 @Mock 时将 Null 值注入到 Spring bean 中？

由于我是 Spring Test MVC 的新手我不明白这个问题我从以下代码中获取了http markchensblog blogspot in search label Spring http markchensblog blogsp
如何在java中将日期格式从YYMMDD更改为YYYY-MM-DD？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我从机器可读代码中获取日期格式为 YYMMDD 如何将其更改为 YYYY MM DD 例如我收到 871223 YYMMDD 我想把它改成
Akka 与现有 java 项目集成的示例

如果我已经有现有的javaWeb 应用程序使用spring and servlet容器将 Akka 集成到其中的正确方法是什么就像我将会有Actor1 and Actor2互相沟通的开始使用这些演员的切入点是什么例如 1 把它放在那
提高 PostgreSQL 1 亿数据左连接查询性能

我在用Postgresql 9 2 version Windows 7 64 bit RAM 6GB 这是一个Java企业项目我必须在我的页面中显示订单相关信息有三个表通过左连接连接在一起 Tables TV HD 389772 行 T
在Java中运行bat文件并等待

您可能会认为从 Java 启动 bat 文件是一项简单的任务但事实并非如此我有一个 bat 文件它对从文本文件读取的值循环执行一些 sql 命令它或多或少是这样的 FOR F x in CD listOfThings txt do
如何在JPanel中设置背景图片

你好我使用 JPanel 作为我的框架的容器然后我真的想在我的面板中使用背景图片我真的需要帮助这是我到目前为止的代码这是更新请检查这里是我的代码 import java awt import javax swing import
使用 Elastic Beanstalk 进行 Logback

我在使用 Elastic Beanstalk 记录应用程序日志时遇到问题我正在 AWS Elastic Beanstalk 上的 Tomcat 8 5 with Corretto 11 running on 64bit Amazon Li
在 Java 中获取并存储子进程的输出

我正在做一些需要我开始子处理命令提示符并在其上执行一些命令的事情我需要从子进程获取输出并将其存储在文件或字符串中这是我到目前为止所做的但它不起作用 public static void main String args try R
如何区分从 Saxon XPathSelector 返回的属性节点和元素节点

给定 XML
手动设置Android Studio的JDK路径

如何为 Android Studio 使用自定义 JDK 路径我不想弄乱 PATH 因为我没有管理员权限是否有某个配置设置文件允许我进行设置如果您查看项目设置您可以从那里访问 jdk 在标准 Windows 键盘映射上您可以在项目
java XMLSerializer 避免复杂的空元素

我有这个代码 DocumentBuilderFactory factory DocumentBuilderFactory newInstance DocumentBuilder builder factory newDocumentBuil
partitioningBy 必须生成一个包含 true 和 false 条目的映射吗？

The 分区依据 https docs oracle com javase 8 docs api java util stream Collectors html partitioningBy java util function Pred
子类构造函数（JAVA）中的重写函数[重复]

这个问题在这里已经有答案了为什么在派生类构造函数中调用超类构造函数时 id 0 当创建子对象时什么时候在堆中为该对象分配内存在基类构造函数运行之后还是之前 class Parent int id 10 Parent meth void
Log4j2 ThreadContext 映射不适用于parallelStream()

我有以下示例代码 public class Test static System setProperty isThreadContextMapInheritable true private static final Logger LOGG
Java/Python 中的快速 IPC/Socket 通信

我的应用程序中需要两个进程 Java 和 Python 进行通信我注意到套接字通信占用了 93 的运行时间为什么通讯这么慢我应该寻找套接字通信的替代方案还是可以使其更快更新我发现了一个简单的修复方法由于某些未知原因缓冲输出流似

随机推荐

随着索引和文档数量恒定，elasticsearch 批量索引会随着时间的推移而变慢

我遇到了使用 NET NEST 客户端和 ElasticSearch 进行批量索引的性能随着时间的推移索引数量和文档数量恒定而降低的情况我们正在奔跑ElasticSearch Version 0 19 11 JVM 23 5 b02在具
如果 useAsync 为 true，FileStream.ReadAsync 会阻止 UI，但如果为 false，则不会阻止 UI

我读到了关于useAsync参数在这个FileStream构造函数 FileStream String FileMode FileAccess FileShare Int32 Boolean https learn microsoft co
R 笔记本：opts_chunk 没有效果

我正在开发我的第一台 R 笔记本除了一个问题之外它运行得很好我想成为我内联输出的数字 r realbignumber 以逗号作为分隔符且最多 2 位小数 123 456 789 12 为了实现这一目标我在文档的开头添加了一个块其中
智能感知永远加载

Recently installed 16 5 and Intellisense never ends to load on a fairly simple project 我不得不说我运行的是 Ryzen 3990 和 SSD 所以很惊讶
必须指定 Spring Security 身份验证管理器 - 用于自定义过滤器

我正在尝试创建自定义用户名密码身份验证过滤器因为我需要验证来自两个不同来源的密码我正在使用 Spring Boot 1 2 1 和 Java 配置我在部署时遇到的错误是 Caused by org springframework be
是否可以过滤流聊天中的嵌套对象？

流聊天 v6 7 3 当我连接除 id 名称和图像之外的用户时我将自己的属性添加为对象如下所示 await client connectUser id jose name pepe image https i imgur com YEG
关闭/清理“混合”文件描述符/套接字

当我使用accept 创建一个套接字并使用fdopen 从中创建一个文件时我需要做什么来清理所有内容我是否需要对 FILE 执行 fclose 对套接字执行 shutdown 和 close 还是只需要 shutdown 和或 clo
从经度/纬度迁移到 GeoDjango Points？

使用 Django ORM Postgres PostGIS 和 Django 迁移如何转换现有的longitude and latitude将字段浮动到单个 GeoDjango 点字段中我正在寻找类似的东西Location objec
mysql REGEXP 不匹配

我有一个正则表达式旨在捕获字符串中的电话号码 1 s d 3 s d 3 s d 4 我尝试使用以下查询在 MySql 数据库中查询此正则表达式 SELECT FROM everything instances meta AS m WHE
BotBuilder - 具有调度错误的 NLP 不知道这样的主机

我是使用 Bot Builder 框架的新手我正在关注微软的这个教程https learn microsoft com en us azure cognitive services qnamaker tutorials integrate
-moz-变换 z-index 错误？

In 这个测试用例 http jsfiddle net MZ7PX 没有 moz transform rotate 31deg 黄色框是可见的它应该是可见的但是如果我添加这个尽管有一个黄色框是不可见的z index of 999 Wh
rbind 命名向量到不同长度的矩阵

我正在尝试将命名向量绑定到矩阵上命名向量的长度与矩阵不同 gt m lt matrix data c 1 2 3 nrow 1 ncol 3 dimnames list c c column 1 column 2 column 3 gt
短信：AT指令

我正在尝试在我的计算机上设置短信网关这是我找到的一些代码 AT OK AT CMGF 1 OK AT CMGL ALL CMGL 1 REC READ 85291234567 06 11 11 00 30 29 32 Hello welc
有没有一种方法可以通过数据注释来验证一个日期属性大于或等于另一个日期属性？

我有一个StartDate and EndDate on my SchoolEvents模型和我想知道是否有任何数据注释可以用来验证StartDate小于或等于EndDate并且那EndDate大于或等于StartDate 从我的角度来看
如何向 Json.NET 输出添加注释？

有没有办法可以自动将注释添加到 Json NET 的序列化输出中理想情况下我想它类似于以下内容 public class MyClass JsonComment My documentation string public string
为什么要重新分配向量副本而不是移动元素？ [复制]

这个问题在这里已经有答案了可能的重复当向量增长时如何强制移动语义 https stackoverflow com questions 8001823 how to enforce move semantics when a vector
什么是 TypeScript？为什么我要用它代替 JavaScript？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案您能描述一下 TypeScript 语言是什么吗它能做什么 JavaScript 或可用库不能做的事情这让我有理由考虑它我最初写
如何动态更新属性文件？

我的应用程序是一个批处理过程它从 application properties 文件中提取环境变量我使用的密码必须每隔几个月更新一次我想自动化密码更新过程并将更新后的密码保存在属性文件中以便在将来的运行中使用但我尝试进行的任何更新
统计并限制上传的文件数量（HTML文件输入）

我有那个基本的众所周知的多文件上传表单类似的事情
CoreNLP 如何识别小写的命名实体，例如 kobe bryant？

我遇到一个问题 CoreNLP 只能识别以大写字符开头的命名实体例如科比布莱恩特 Kobe Bryant 但无法识别科比布莱恩特 kobe bryant 作为一个人那么CoreNLP如何识别以小写字符开头的命名实体赞赏它首先您

CoreNLP 如何识别小写的命名实体，例如 kobe bryant？

CoreNLP 如何识别小写的命名实体，例如 kobe bryant？ 的相关文章

随机推荐

热门标签

CoreNLP 如何识别小写的命名实体，例如 kobe bryant？的相关文章