使用命名实体训练模型

2023-12-02

我正在使用命名实体识别器查看standford corenlp。我有不同类型的输入文本，我需要将其标记到我自己的实体中。所以我开始训练我自己的模型，但它似乎不起作用。

例如：我的输入文本字符串是“Book of 49 Magazine Articles on Toyota Land Cruiser 1956-1987 Gold Portfolio”http://t.co/EqxmY1VmLg http://t.co/F0Vefuoj9Q"

我通过这些例子来训练我自己的模型，并只寻找一些我感兴趣的单词。

我的 jane-austen-emma-ch1.tsv 看起来像这样

Toyota  PERS
Land Cruiser    PERS

从上面的输入文本我只对这两个词感兴趣。其一是丰田，另一个词是陆地巡洋舰。

austin.prop 看起来像这样

trainFile = jane-austen-emma-ch1.tsv
serializeTo = ner-model.ser.gz
map = word=0,answer=1
useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
useDisjunctive=true
maxNGramLeng=6
usePrev=true
useNext=true
useSequences=true
usePrevSequences=true
maxLeft=1
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC

运行以下命令生成ner-model.ser.gz文件

java -cp stanford-corenlp-3.4.1.jar edu.stanford.nlp.ie.crf.CRFClassifier -prop austen.prop

public static void main(String[] args) {
        String serializedClassifier = "edu/stanford/nlp/models/ner/english.muc.7class.distsim.crf.ser.gz";
        String serializedClassifier2 = "C:/standford-ner/ner-model.ser.gz";
        try {
            NERClassifierCombiner classifier = new NERClassifierCombiner(false, false, 
                    serializedClassifier2,serializedClassifier);
            String ss = "Book of 49 Magazine Articles on Toyota Land Cruiser 1956-1987 Gold Portfolio http://t.co/EqxmY1VmLg http://t.co/F0Vefuoj9Q";
            System.out.println("---");
            List<List<CoreLabel>> out = classifier.classify(ss);
            for (List<CoreLabel> sentence : out) {
              for (CoreLabel word : sentence) {
                System.out.print(word.word() + '/' + word.get(AnswerAnnotation.class) + ' ');
              }
              System.out.println();
            }

        } catch (ClassCastException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }  catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }

    }

这是我得到的输出

Book/PERS of/PERS 49/O Magazine/PERS Articles/PERS on/O Toyota/PERS Land/PERS Cruiser/PERS 1956-1987/PERS Gold/O Portfolio/PERS http://t.co/EqxmY1VmLg/PERS http://t.co/F0Vefuoj9Q/PERS

我认为这是错误的。我正在寻找丰田/PERS 和陆地巡洋舰/PERS（这是一个多值领域。

感谢您的帮助。非常感谢任何帮助。

我相信你还应该举一些例子0你的实体trainFile。正如你所给出的，trainFile对于学习来说太简单了，它需要both 0 and PERSON例子所以它不会将所有内容注释为PERSON。你是不教它关于您不感兴趣的实体。说吧，像这样：

Toyota  PERS
of    0
Portfolio    0
49    0

等等。

另外，对于短语级你应该考虑的认可regexner，你可以在哪里拥有patterns（模式对我们有好处）。我正在与API我有以下代码：

Properties props = new Properties();
props.put("annotators", "tokenize, ssplit, pos, lemma, ner, regexner");
props.put("regexner.mapping", customLocationFilename);

与以下customLocationFileName:

Make Believe Town   figure of speech    ORGANIZATION
( /Hello/ [{ ner:PERSON }]+ )   salut   PERSON
Bachelor of (Arts|Laws|Science|Engineering) DEGREE
( /University/ /of/ [{ ner:LOCATION }] )    SCHOOL

和文字：Hello Mary Keller was born on 4th of July and took a Bachelor of Science. Partial invoice (€100,000, so roughly 40%) for the consignment C27655 we shipped on 15th August to University of London from the Make Believe Town depot. INV2345 is for the balance.. Customer contact (Sigourney Weaver) says they will pay this on the usual credit terms (30 days).

我得到的输出

Hello Mary Keller is a salut
4th of July is a DATE
Bachelor of Science is a DEGREE
$ 100,000 is a MONEY
40 % is a PERCENT
15th August is a DATE
University of London is a ORGANIZATION
Make Believe Town is a figure of speech
Sigourney Weaver is a PERSON
30 days is a DURATION

有关如何执行此操作的更多信息，您可以查看example这让我继续前进。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用命名实体训练模型的相关文章

基于 Spring Boot 的测试中的上下文层次结构

我的 Spring Boot 应用程序是这样启动的 new SpringApplicationBuilder sources ParentCtxConfig class child ChildFirstCtxConfig class sib
如何关闭整个数据库的区分大小写

我创建了一个包含许多脚本和许多存储过程的数据库在这个数据库中我们没有注意担心区分大小写因为它对于我的本地开发计算机来说是关闭的综上所述我试图弄清楚如何使以下两条语句返回相同的结果 SELECT FROM companies SEL
ContentDialog Windows 10 Mobile XAML - 全屏 - 填充

我在项目中放置了一个 ContentDialog 用于 Windows 10 上的登录弹出窗口当我在移动设备上运行此项目时 ContentDialog 未全屏显示并且该元素周围有最小的填充在键盘上可见例如在焦点元素文本框上键盘和内
如何在 C# 中获取 CMD/控制台编码

我需要指定正确的代码页来使用 zip 库打包文件正如我所见我需要指定控制台编码在我的例子中为 866 C Users User gt mode Status for device CON Lines 300 Columns 130 K
如何为有时异步的操作创建和实现接口

假设我有数百个类它们使用计算方法实现公共接口一些类将执行异步例如读取文件而实现相同接口的其他类将执行同步代码例如将两个数字相加为了维护和性能对此进行编码的好方法是什么到目前为止我读到的帖子总是建议将异步等待方法冒泡给调
错误 1305 (42000)：保存点...不存在

我的 MYSQL 数据库中有这个 SQL 存储过程为空所以我猜没有隐式提交 DROP PROCEDURE IF EXISTS doOrder DELIMITER CREATE PROCEDURE doOrder IN orderUUID
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型
Rails 未定义“2013-03-06”的方法“strftime”：字符串

我收到错误 2013 03 06 的未定义方法 strftime 字符串当尝试使用 strftime 从字符串 2013 03 06 正常显示日期 2013 年 6 月星期日 3 日或类似的日期时在我的 index html erb
除了 Erlang 之外，还有哪些系统是基于“绿色流程”的？

我正在阅读这个信息页面绿线维基百科 http en wikipedia org wiki Green thread我想知道除了 Erlang 之外还有哪些编程系统依赖于绿色进程 Edit 绿线绿色流程基于绿色流程 Erlang
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发
如何从地址簿中获取一个人的电话号码？

我想做的就是让用户从地址簿中选择一个号码我在这个问题中找到了代码如何从地址簿联系人获取电话号码 iphone sdk https stackoverflow com questions 286207 how to get a phone
LifeCycleAware Fragment 中的片段生命周期事件

我有一个生命周期感知片段和一个LifecycleObserver class public class MyFragment extends Fragment Override public void onCreate Nullable B
混合本机/托管可执行文件中的最终托管异常处理程序？

我有一个使用 clr 编译的 MFC 应用程序并且我正在尝试为未捕获的托管异常实现最终处理程序对于本机异常重写CWinApp ProcessWndProcException works 杰夫的书中提到的两个事件代码项目文章 http
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n
如何在 ASP.NET Core 中注入泛型的依赖关系

我有以下存储库类 public class TestRepository Repository
如何访问我的 Android 程序中的联系人

我正在制作一个短信应用程序并且想要访问我的 Android 应用程序中的联系人我想访问联系人就像他们在实际联系人列表中一样选择后我需要返回到我的活动在其中我可以向该人发送短信或者是否可以访问存储联系人的数据库我的代码如下所示
Android GetPTLAFormat 上的 Phonegap 错误

我们正在开发一个使用 jQuery 移动和电话间隙的应用程序一切似乎都工作正常但是当在连接的 Android 手机上运行应用程序时我们在 Eclipse logcat 中看到大量类似这样的错误 0 GetPTLAFormat inva
Swift：UICollectionViewCell didSelectItemAtIndexPath 更改背景颜色

我可以轻松更改单元格的背景颜色CellForItemAtIndexPath method func collectionView collectionView UICollectionView cellForItemAtIndexPath
使用
和元素作为 JavaScript 代码的输入。这是最好的方法吗？

各位显然我是编码新手所以最近完成了一些有关 HTML 和 Javascript 的 Lynda 课程后我的简单 HTML 页面遇到了困难基本上我想要的是使用 JavaScript 进行基本计算让用户使用 HTML 输入两个数字
嵌入式linux编写AT命令

我在向 GSM 模块写入 AT 命令时遇到问题当我使用 minicom b 115200 D dev ttySP0 term vt100 时它工作完美但我不知道如何在 C 代码中做同样的事情我没有收到任何错误但模块对命令没有反应有

随机推荐

使用 TypeScript 接口中的字符串枚举值作为计算属性键

我想定义一个函数根据我给出的键返回不同类型的对象这基本上就像这里使用的技巧createElement功能 https github com Microsoft TypeScript blob master lib lib dom d ts
用于查找表中代表性行的 SQL 查询

假设我有一个像这样的付款表 CREATE TABLE Payments PaymentID INT CustomerID INT Value INT PaidOn DATE INSERT INTO Payments VALUES 1 1 5
如何在 REGEXP 中转义 MySQL 中的星号 (*)

我尝试将关键字与REGEXP在MySQL中如下 Match fitt the asterisk is expected to be matched as is gt select aaaa fitt bbb regexp lt fitt g
为什么按值传递和按右值重载传递 C++ 函数调用不明确？

如果我有 void foo Bar c void foo Bar c foo Bar 为什么对 foo 的调用不明确 foo 参数中的 Bar 显然不是一个 rValue 吗绑定到引用是完全匹配绑定到非引用也是如此因此两种重载都同样
DbArithmeticExpression 参数必须具有数字通用类型

TimeSpan time24 new TimeSpan 24 0 0 TimeSpan time18 new TimeSpan 18 0 0 first get today s sleeping hours List
Python Twisted：通过 IP 地址限制访问

通过 IP 地址限制对 XMLRPC 服务器的访问的最佳方法是什么我看到 web twcgi py 中的 CGIScript 类有一个正在访问请求的渲染方法但我不确定如何在我的服务器中访问此请求我看到一个例子有人修补了 twcgi
计算二维数组中的“真实”值

给定以下数组 mm Array 147 gt Array pts m gt pts mreg gt 1 pts cg gt 1 158 gt Array pts m gt pts mreg gt pts cg gt 0 159 gt Arr
如何在 java ee 应用程序中启用 h2 控制台

我想在我的应用程序开发过程中访问 h2 控制台功能我使用 JavaEE 和 Wildfly 作为我的应用程序服务器我知道对于 Spring Boot 我们需要添加以下配置行 spring h2 console enabled true
使用 powershell 和 7zip 创建存档的脚本

我们有几台服务器每天将日志文件写入 C Logs 每个月都会运行一个脚本来识别超过 30 天的文件将其存档并删除源文件 C Logs 文件夹包含日志文件以及也包含日志文件的子文件夹名为 1234 4567 7890 作为 Powersh
Java 中的类型参数

下面两个声明有什么区别吗 public
如何结合使用 Socket.io 和 Express.JS（使用 Express 应用程序生成器）

我正在尝试将 Socket io 与 Express JS 结合使用使用 Express 应用程序生成器我发现了一些如何做到这一点的问题在 Express 4 和 express generator 的 bin www 中使用 soc
使用密码短语的 Java AES 和 CBC

我想用 Java 实现 256 密钥 AES 和 CBC 加密收件人以字符串 absnfjtyrufjdngjvhfgksdfrtifghkv 的形式向我发送了 256 位密码使用以下 openssl 命令可以完美运行 echo tes
在安装的 pygame 目录中哪里可以找到 pygame.init() 方法？

我找不到 pygame init 函数请看看我做了什么 ckim chan ubuntu python Python 2 7 12 default Nov 12 2018 14 36 49 GCC 5 4 0 20160609 on li
从另一个 Android 应用程序中的 APK 调用 Activity

我有一个 Android 应用程序它启动一个活动并且运行良好我需要其他开发人员能够将我的 APK 集成到他们的应用程序中以便他们可以从他们的 Android 应用程序启动我的 APK 中的活动有哪些方法可以实现这一目标谢谢乔治
从扫描仪获取字符输入

我正在尝试找到一种方法char从键盘输入我尝试使用 Scanner reader new Scanner System in char c reader nextChar 这个方法不存在我尝试服用c as a String 然而它并不
jQuery.proxy() 用法

我正在阅读有关的 apijQuery proxy 它看起来很有希望但我想知道在什么情况下最好使用它谁能启发我吗当你想要一个具有以下功能的函数时this值绑定到特定对象例如在事件处理程序 AJAX 回调超时间隔自定义对象等回调
usleep() 计算经过的时间表现得很奇怪

我使用下面的代码计算每次连续调用处理程序函数所花费的时间以毫秒为单位当我使用 usleep 1000 时即每次调用之间的 1 毫秒时间差为 10 毫秒而当我使用 usleep 1000000 时即 1 秒每次调用之间的时间间隔令
覆盖从另一个模块导入的函数中的全局变量

假设我有两个模块 a py value 3 def x return value b py from a import x value 4 我的目标是使用以下功能a x in b 但更改函数返回的值具体来说 value将被查找a作为全局名
删除事件发生时从 Microsoft Graph 获取通知

我已经订阅了活动 https outlook office com api v2 0 me events 推送通知当我删除重复主事件的一个事件时我收到带有主事件 ID 的更新通知而不是特定发生事件 ID 如果不与所有以前的重复事件进行
使用命名实体训练模型

我正在使用命名实体识别器查看standford corenlp 我有不同类型的输入文本我需要将其标记到我自己的实体中所以我开始训练我自己的模型但它似乎不起作用例如我的输入文本字符串是 Book of 49 Magazine Art

使用命名实体训练模型

使用命名实体训练模型 的相关文章

随机推荐

热门标签

使用命名实体训练模型的相关文章