对命名实体使用(NLP)门工具[关闭]

2024-01-09

我可以使用GATE吗http://gate.ac.uk/ http://gate.ac.uk/在我的java程序中提取命名实体。如果是,您能否举一些例子或指导我找到一些资料来源。谢谢


您的问题实际上是两个问题:如何使用 GATE 查找命名实体以及如何将 GATE 嵌入到您的应用程序中。

命名实体识别或分类是一个巨大的研究领域,根据您想要查找的命名实体,不同的方法可能是最有效的。 GATE 提供了一个非常基本的地名词典列表和基于规则的方法,用于在英文文本中查找某些类别的命名实体:ANNIE。 如果 ANNIE 找到的类别是您感兴趣的类别,那么一种开始方法可能是了解并改进 ANNIE 已提供的内容。 ANNIE 管道将为您的文档中的人员、组织等创建注释,您只需使用或编写一个 PR 来访问这些注释,并根据这些注释的功能或文本执行您需要的任何操作。 查看GATE手册http://gate.ac.uk/sale/tao/split.html http://gate.ac.uk/sale/tao/split.html它解释了 ANNIE,并且还有一些关于如何嵌入 GATE 的文档(如何直接从 Java 程序使用 GATE,而不运行 GUI)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

对命名实体使用(NLP)门工具[关闭] 的相关文章

  • 基于WordNet测量语义相似度,Brown Corpus有什么用

    我遇到了几种使用 WordNet 的结构和层次结构来测量语义相似性的方法 例如Jiang and Conrath测度 JNC Resnik测度 RES 林测度 LIN 等 使用 NLTK 测量它们的方式是 sim2 wn jcn simil
  • NLP 中的否定处理

    我目前正在开发一个项目 我想从文本中提取情感 由于我使用的是conceptnet5 一种语义网络 因此我不能简单地在包含否定词的句子中添加单词前缀 因为这些单词根本不会出现在conceptnet5 的API 中 这是一个例子 这部电影不太好
  • 如何在张量流中使用非常大(>2M)的词嵌入?

    我正在运行一个具有非常大的词嵌入 gt 2M 词 的模型 当我使用 tf embedding lookup 时 它需要一个很大的矩阵 当我运行时 我随后出现了 GPU 内存错误 如果我减小嵌入的大小 一切都会正常 有没有办法处理更大的嵌入
  • 自动同义词检测方法

    我目前正在研究一种基于神经网络的短文档分类方法 由于我正在使用的语料库通常在十个单词左右 因此标准统计文档分类方法的用途有限 因此 我正在尝试对训练中提供的匹配实施某种形式的自动同义词检测 更具体地说 我的问题是关于解决以下情况 假设我有
  • 如何从另一种语言单词创建英文字母字符串?

    我需要找到一种方法将某些语言的单词 翻译 重写为英语 例如 俄语 听起来像privet 用英语讲 含义和语法并不重要 但我希望它听起来更相似 一切都应该用Python编写 我在网上努力查找 但没有找到好的方法 例如 类似这样的事情 tran
  • C++ - 如何使用 C++ 读取 Unicode 字符(例如印地语脚本),或者是否有通过其他编程语言更好的方法?

    我有一个像这样的印地语脚本文件 3 我必须编写一个程序 为每个句子中的每个单词添加一个位置 因此 特定单词位置的每一行的编号应以括号中的 1 开头 输出应该是这样的 3 1 2 3 4 5 6 7 8 9 上面这句话的意思是 3 India
  • 创建向量空间

    我有一个问题 我有很多文档 每一行都是由某种模式构建的 当然 我有这一系列的图案 我想创建一些向量空间 然后通过某种规则来向量这个模式 我还不知道这个规则是什么 即使这个模式像我的向量空间的 质心 然后向量当前文档的每一行 再次按照此规则
  • 如何获取与某个单词相关的相似单词?

    我正在尝试解决一个 nlp 问题 其中我有一个单词字典 例如 list 1 phone android chair netflit charger macbook laptop sony 现在 如果输入是 phone 我可以轻松地使用 in
  • Python 3 和 NLTK 与 WordNet 2.1 - 这可能吗?

    我将 Python 3 和 NLTK 3 0 0 与 WordNet 3 0 结合使用 我想用该数据 semval2007 https github com alvations pywsd tree master pywsd data se
  • doc2vec 获得良好性能所需的最小数据集大小是多少?

    在不同大小的数据集上进行训练时 doc2vec 的表现如何 原始语料库中没有提到数据集大小 所以我想知道从 doc2vec 中获得良好性能所需的最小大小是多少 有很多东西被称为 doc2vec 但它似乎最常指的是 Le 和 Mikolov
  • 如何使用 python 中的 spacy 库将句子转换为问题 [请参阅下面的我的代码进行更正]

    我需要使用 python 中的 spacy 将任何句子转换为问题 我下面的代码太长了 我需要做更多的工作才能将任何句子完成为问题格式 现在在这段代码中我根据以下条件制定条件是形式 需要形式 有形式 做形式通过检查过去时和现在时 输入 尼娜拉
  • 使用 nltk 进行分块

    如何从给定模式的句子中获取所有块 示例 NP
  • 如何计算两个文本文档之间的相似度?

    我正在考虑使用任何编程语言 尽管我更喜欢 Python 来从事 NLP 项目 我想获取两个文档并确定它们的相似程度 常见的方法是将文档转换为 TF IDF 向量 然后计算它们之间的余弦相似度 任何有关信息检索 IR 的教科书都涵盖了这一点
  • 比较文本文档含义的最佳方法?

    我正在尝试找到使用人工智能和机器学习方法来比较两个文本文档的最佳方法 我使用了 TF IDF Cosine 相似度和其他相似度度量 但这会在单词 或 n gram 级别上比较文档 我正在寻找一种方法来比较meaning的文件 最好的方法是什
  • 词干函数错误:词干需要一个位置参数

    这里的stem函数显示错误 指出stem需要循环中的一个位置参数 如所讨论的 from nltk stem import PorterStemmer as ps text my name is pythonly and looking fo
  • Blenderbot 微调

    我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法 该方法要求我们使用 trainer train 方法来完成此操作 我使用 compile 方法尝试了它 我尝试过使用 Py
  • 将单引号替换为双引号并排除某些元素

    我想用双引号替换字符串中的所有单引号 但出现的情况除外 例如 n t ll m 等 input the stackoverflow don t said hey what output the stackoverflow don t sai
  • 从文本文件中提取与输入单词最相似的前 N ​​个单词

    我有一个文本文件 其中包含我使用 BeautifulSoup 提取的网页内容 我需要根据给定的单词从文本文件中找到 N 个相似的单词 流程如下 从中提取文本的网站 https en wikipedia org wiki Football h
  • SpaCy 模型“en_core_web_sm”的词汇量大小

    我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词 我也在同
  • 快速 shell 命令删除文本文件中的停用词

    我有一个 2GB 的文本文件 我正在尝试从此文件中删除经常出现的英语停用词 我有 stopwords txt 包含这样的 a an the for and I 使用 shell 命令 例如 tr sed 或 awk 执行此操作的快速方法是什

随机推荐

  • SplitAt 3 然后继续分裂

    我想在 Haskell 中每 3 个字母分割一个字符串 我尝试过使用splitAt但我必须重复此操作 直到字符串每 3 个字母被分割一次 有没有办法做到这一点 E g WEAREDISCOVERED 会成为 WEA RED ISC OVE
  • 将字符串拆分为交替的单词(Scala)

    我想将一个字符串分割成交替的单词 总会有一个偶数 e g val text this here is a test sentence 应该转换为某种有序集合类型 其中包含 this is test and here a sentence 我
  • numpy 中的局部均值滤波器

    我有一个 512x512x512 numpy 数组 是否有任何有效的方法来执行均值过滤器 其中每个数组值都被所有 3x3x3 本地值替换 我们正在寻找类似的东西scipy ndimage filters median filter但用平均值
  • 无法理解tensorflow keras层中“build”方法的行为(tf.keras.layers.Layer)

    张量流keras中的层有一个方法build它用于将权重创建推迟到您了解输入内容的时间 图层的构建方法 https www tensorflow org api docs python tf keras layers Layer build
  • 以最有效的方式比较两个 pandas DataFrame

    让我们考虑两个 pandas 数据框 import numpy as np import pandas as pd df pd DataFrame 1 2 3 2 5 4 3 6 7 check df pd DataFrame 3 2 5
  • 按年龄对一组人进行排序的最快方法是什么?

    有一系列结构 struct string name string 2nd name int age 0 to 150 数组的最大长度为 10 8 我知道我可以使用归并排序 快速排序和所有其他众所周知的算法 但是我想知道是否可以添加其他东西来
  • 我的 Android 应用程序中未显示当前位置

    我已经编写了用于获取 android 项目中当前位置的代码 但它不会自动选择我的位置并在世界某个地方显示标记 尽管我坐在巴基斯坦 地图活动代码在这里 package com example uber import androidx anno
  • Jupyter 笔记本永远不会使用多重处理完成处理(Python 3)

    Jupyter笔记本 我基本上使用多处理模块 我仍在学习多处理的功能 我正在使用达斯蒂 菲利普斯的书 这个代码属于它 import multiprocessing import random from multiprocessing poo
  • Python - LightGBM 与 GridSearchCV,永远运行

    最近 我正在做多个实验来比较Python XgBoost和LightGBM 看来这个LightGBM是一种新算法 人们说它在速度和准确性上都比XGBoost更好 This is LightGBM GitHub https github co
  • 自动将根路径重定向到 Spring Boot 上下文路径

    我正在使用 application properties 文件中指定的 Spring Boot 上下文路径 并且效果很好 server port 5000 server context path services Spring Boot 2
  • 改变元素之间文本选择的顺序

    说我有这个 div position absolute top 0 right left 50px left left 0 div World div div Hello div 当我从左到右选择文本时 它的行为在视觉上不直观 至少在 Ch
  • 设计长期运行、资源密集型 Web 服务的建议

    我有一个 NET 函数可以执行一些复杂的计算 根据传入的参数 该函数 运行时间从几分钟到几个小时不等 计算期间使用 100 单核 需要 100 MB 到几 GB 内存 将几 MB 到几 GB 的数据写入磁盘 可能会抛出异常 包括 OutOf
  • 使用 Flask 从下拉菜单中获取数据

    我对 Flask 完全陌生 并且真的完全不知道如何解决这个问题 我已经研究过其他问题 但无论如何我似乎都无法使其正常工作 我有这样的表格
  • Ionic:导航到另一个视图时保留 $scope

    我正在使用 Ionic Framework Angular Cordova 开发一个应用程序 该应用程序有一个新闻部分 其中包含从 JSON 格式的服务器加载的新闻列表 然后我点击一个新的以打开单个新闻的视图 但是当返回到新闻列表时 sco
  • Flutter中是否可以使用JS可视化库(例如Chart.js或D3.js)?

    如果可能的话 它到底是如何运作的 也许可以访问 Flutter 的Canvas https api flutter dev flutter dart ui Canvas class html通过JS小部件 我对此最好的猜测是flutter
  • JNI 环境指针

    我有一个 Java 类 其中有一个必须从 C 代码调用的函数 函数如下 public void endTrial Code 所以我在我的 C 文件中创建了以下代码 JNIEXPORT void JNICALL package endTria
  • 获取 post_save 信号中字段的先前值

    我在 django 中有一个 post 信号 我需要访问字段的先前值 post save connect callback function postsave sender Media 我知道理想情况下我应该使用 pre save pre
  • UITableView reloadData() 不刷新显示的单元格

    I have class StationViewController UITableViewController UITableViewDelegate UITableViewDataSource IBOutlet var stationT
  • 包括所有依赖项

    我刚刚开始使用 WiX 因为我需要能够在我们的 CI 服务器上自动构建 MSI 有没有办法自动包含项目的所有依赖项 heat exe 的 proj 扩展变得越来越好 Heat http wixtoolset org documentatio
  • 对命名实体使用(NLP)门工具[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我可以使用GATE吗http gate ac uk http gate ac uk 在我的java程序中提取命名实体 如果是 您能否举