如何基于 stanford-nlp 条件随机场模型训练法国 NER?

2023-11-22

我发现了 stanford-NLP 的工具,发现它真的很有趣。 我是一名法国数据挖掘者/数据科学家,喜欢文本分析,并且很想使用你们的工具,但是 NER 在法语中不可用,这让我很困惑。

我很想制作自己的法语 NER,如果认为值得的话,甚至可能将其作为对包的贡献提供,所以...您能否简要介绍一下基于 stanford coreNLP 为法语 NER 训练 CRF 的要求?

谢谢。


注意:我不是斯坦福工具的开发者,也不是 NLP 专家。只是 lambda 用户在某些时候也需要此类信息。另请注意,下面给出的部分信息来自官方常见问题解答:http://nlp.stanford.edu/software/crf-faq.shtml#a

以下是我训练自己的 NER 时遵循的步骤:

  1. 安装java 8
  2. 创建训练/测试样本。它必须采取以下形式.tsv具有以下格式的文件:

      Venez    O
      découvrir    O
      lundi    DAY
      le    O
      nouvel    O
      espace    O
      de    O
      vente    O
      ODHOJS    ORGANISATION
    

    根据文本的原始格式,您可以使用 SQL 语句或其他 NLP 工具创建此示例。标签是最复杂的部分,因为我不知道除了手工做之外还有其他方法可以进行。

  3. 使用以下命令训练模型:

    java -cp "stanford-ner.jar:lib/*" -mx4g edu.stanford.nlp.ie.crf.CRFClassifier -prop prop.txt
    

    where prop.txt还描述了here.

    这应该创建一个新的.jar包含新训练的模型。

  4. 测试模型性能:

    java -cp "stanford-ner.jar:lib/*" edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -testFile test.tsv > test.res
    

    输入test.tsv具有相同的格式train.tsv文件。输出在test.res有一个额外的列,其中包含 NER 预测类别。最后几行还显示了精度、召回率和 F1 方面的摘要。

  5. 最后,您可以在真实数据上使用 NER:

    java -cp "stanford-ner.jar:lib/*" -mx5g edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz  -textFile test.txt -outputFormat inlineXML > test.res
    

希望能帮助到你。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何基于 stanford-nlp 条件随机场模型训练法国 NER? 的相关文章

  • 使用斯坦福 NLP 检测语言

    我想知道是否可以使用Stanford CoreNLP检测句子是用哪种语言写的 如果是这样 这些算法的精确度如何 几乎可以肯定的是 斯坦福 COreNLP 目前还没有语言识别功能 几乎 因为不存在更难证明 编辑 尽管如此 以下是间接证据 也没
  • 我的公报上的实体无法识别

    我想创建一个自定义 NER 模型 这就是我所做的 训练数据 斯坦福 ner tsv Hello O O My O name O is O Damiano PERSON O 特性 stanford ner prop trainFile sta
  • 无法在 R 中初始化 CoreNLP

    我无法访问coreNLP在运行 High Sierra 的 Mac 上用 R 编写 我不确定问题是什么 但似乎每次我再次尝试获取coreNLP工作时 我面临着不同的错误 我有 JDK 9 0 4 请参阅下面的代码 了解我正在尝试执行的操作以
  • 解析短语动词

    有人尝试过用斯坦福 NLP 解析短语动词吗 问题出在可分离短语动词上 例如 climb up do over 我们爬上了那座山 我必须把这项工作重新做一遍 第一个短语在解析树中看起来像这样 VP VBD climbed ADVP IN th
  • 如何使用斯坦福解析器解析英语以外的语言?在java中,而不是命令行

    我一直在尝试在我的Java程序中使用Stanford Parser来解析一些中文句子 由于我对 Java 和斯坦福解析器都很陌生 因此我使用 ParseDemo java 进行练习 该代码可以很好地处理英语句子并输出正确的结果 然而 当我将
  • 在 Java 中将单词转换为名词/形容词/动词形式

    是否可以使用 NLTK 的 Java 替代品来 动词化 单词 如本问题所示 在动词 名词 形容词形式之间转换单词 例如 我想将 出生 转换为 出生 因为在使用 Wordnet 相似性时 该算法并未显示 出生 和 出生 非常相似 因此 我想将
  • 使用斯坦福 CoreNLP 进行共指解析

    我是斯坦福 CoreNLP 工具包的新手 并尝试将其用于解决新闻文本中的共指问题的项目 为了使用斯坦福 CoreNLP 共指系统 我们通常会创建一个管道 这需要标记化 句子分割 词性标记 词形还原 命名实体识别和解析 例如 Properti
  • 神经网络斯坦福解析器训练期间出现 word2vector 格式错误

    我正在尝试使用斯坦福神经网络依赖解析器来训练英语模型 它不接受 100 维的标准 word2vector 文件 它会生成一条错误消息 我正在使用此网页中定义的嵌入单词 https drive google com file d 0B8nES
  • 斯坦福 NLP 解析器是否有语义角色标记方法?

    我正在尝试找到英语句子的语义标签 我正在使用斯坦福 NLP 解析器 它有这方面的方法吗 我正在查看文档 但我能找到的最接近的东西是 CoreAnnotations SemanticWordAnnotation CoreAnnotations
  • 为什么 CoreNLP ner tagger 和 ner tagger 将分开的数字连接在一起?

    这是代码片段 In 390 t Out 390 my phone number is 1111 1111 1111 In 391 ner tagger tag t Out 391 my O phone O number O is O 111
  • 如何使用 nltk 从字符串中提取名称

    我正在尝试从非结构化字符串中提取名称 印度 这是我的代码 text Balaji Chandrasekaran Bangalore Senior Business Analyst Lead Business Analyst An accom
  • 使用法国模型运行斯坦福 corenlp 服务器

    我正在尝试使用斯坦福 CoreNLP 工具分析一些法语文本 这是我第一次尝试使用斯坦福 NLP 软件 为此 我下载了 v3 6 0 jar 和相应的法国模特 http nlp stanford edu software stanford f
  • stanford-corenlp 中的默认线程数是多少

    stanford corenlp 中的默认线程数是多少 具体来说 是命名实体提取器 然后是信息提取器 另外 我希望两者都使用单个线程进行调试 我该如何设置 Thanks 默认为 1 个线程 有两种方法可以在多线程模式下运行斯坦福 CoreN
  • 斯坦福核心 NLP 如何获得概率和误差幅度

    当使用解析器或核心 NLP 中的任何注释时 有没有办法访问概率或误差幅度 为了将我的问题放在上下文中 我试图了解是否有一种方法可以以编程方式检测歧义情况 例如 在下面的句子中 动词 desire 被检测为名词 我希望能够知道我可以从 Cor
  • stanford corenlp python 与 pexpect 错误

    我正在尝试从 stanford corenlp python 包运行 corenlp py 当我运行它时 我收到此错误 Traceback most recent call last File corenlp py line 592 in
  • 从 Python 句子中提取三元组

    我正在尝试使用Python中的斯坦福依赖解析器从给定的句子中提取三元组 主语 谓语 宾语 有人可以指导我完成这个任务吗 提前致谢 您可以参考以下链接来从句子中提取三元组 https github com tdpetrou RDF Tripl
  • 将中文文档拆分成句子[关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我必须将中文文本分成多个句子 我尝试了斯坦福文档预处理器 它对于英语来说效果很好 但对于中文则不然 请
  • 如何分割日语文本?

    使用 Java 分割日语文本的最佳方法是什么 例如 对于以下文本 私 名前 私 行 我需要以下输出 私 名前 私 行 可以使用黑字吗 您可以使用java text BreakIterator String TEXT 私 名前 私 行 Bre
  • 如何使用斯坦福NER(命名实体识别器)的python接口?

    我想使用 pyner 库在 python 中使用斯坦福 NER 这是一个基本的代码片段 import ner tagger ner HttpNER host localhost port 80 tagger get entities Uni
  • 阻止斯坦福核心 NLP 服务器输出它收到的文本

    我正在运行一个斯坦福核心自然语言处理 http stanfordnlp github io CoreNLP server java mx4g cp edu stanford nlp pipeline StanfordCoreNLPServe

随机推荐

  • 如何运行包中的 Java 类?

    我有两个java类如下 App1不带包装 class App1 public static void main String args System out println App1 hello world App2在一个包中 packag
  • 如何从子 Widget 更新父 Widget 的状态,同时更新 Flutter 中子 Widget 的状态?

    我想请你帮忙解决这个问题 我下面的示例代码旨在从子窗口小部件更新父窗口小部件的状态 同时也更新子窗口小部件的状态 父窗口小部件的文本值将更新 同时也会更改子窗口小部件按钮的颜色 import package flutter material
  • 在Java中如何确保当前本地时间是正确的? [复制]

    这个问题在这里已经有答案了 我需要确保在我的客户端应用程序中 用户不会显着更改机器日期 例如 将其更改为 1 个月前 据我所知 在 Java 中检查当前时间的最佳方法是 System currentTimeInMillis 在多平台环境 W
  • 如何使用Python + Webdriver进行远程连接

    我正在尝试弄清楚如何连接到我的远程网络驱动程序实例 这是我当前使用的代码 from selenium remote webdriver import WebDriver driver WebDriver http 172 16 205 12
  • 在 Docker 容器中使用 VNCserver + GUI 应用程序 + Virtual Display

    我想在 docker 容器内运行 firefox 或任何图形应用程序 我的要求 当我启动容器时 我应该创建一个虚拟显示 启动 VNC 服务器 然后启动 GUI 应用程序 这意味着容器成功启动后 我可以通过 VNC 客户端连接到容器内运行的
  • 在 React.js 中,如何在用户单击后退按钮时运行函数?

    我环顾四周并尝试使用 React router 找到解决方案 通过 V5 您可以使用
  • fasta.gz 上的 SeqIO.parse

    编码新手 Pytho biopython 新手 这是我在网上的第一个问题 如何打开压缩的 fasta gz 文件以提取信息并在我的函数中执行计算 这是我正在尝试执行的操作 我尝试了不同的方法 以及错误是什么的简化示例 我正在使用的 gzip
  • 在 WPF 中仅使用 XAML 根据 TextBox 的文本过滤 ListBox 的项目

    我目前有一个绑定到项目集合的列表框 由于集合很大 我们希望根据在文本框中输入的文本来过滤显示的项目 我要问的是 是否可以仅使用 XAML 来实现 我不想修改项目集合 我想根据过滤器修改每个项目的可见性 希望它清楚 thanks 就像 Cod
  • 使用 PowerShell 脚本执行 EXE 文件

    我正在尝试使用 PowerShell 脚本执行 EXE 文件 如果我使用命令行 它可以正常工作 首先我提供可执行文件的名称和一系列参数来调用它 C Program Files Automated QA TestExecute 8 Bin T
  • 为什么 .NET Reactive Extensions 中不推荐使用主题?

    我目前正在掌握 NET 的响应式扩展框架 并且正在研究我找到的各种介绍资源 主要是http www introtorx com 我们的应用程序涉及许多检测网络帧的硬件接口 这些将是我的 IObservables 然后我有各种组件将消耗这些帧
  • 如何在不使用框架集的情况下仅缩放 IFRAME 内容?

    我只需要缩放框架内容 在我的网页中我使用了zoom 0 75 height 520px width 800px 如果我增加缩放值 则意味着帧尺寸将会增加
  • glClear() 如何提高性能?

    Apple 关于解决闪烁问题的技术问答 QA1650 包括以下段落 强调我的 您必须为屏幕上的每个像素提供一种颜色 在绘图代码开始时 最好使用 glClear 来初始化颜色缓冲区 在帧开始时全屏清除每种颜色 深度和模板缓冲区 如果您正在使用
  • SMJobSubmit() 可以用来执行 SMJobBless 安装的特权助手吗?

    我一直在阅读文档和 SMJobBless 示例以及互联网上的各种讨论 我的应用程序现在使用安装特权助手SMJobBless 但助手根本不运行 帮助程序的全部目的是在应用程序启动时加载 kext 这是我的应用程序的重要组件 我看到的例子表明
  • zend 形式的数组输入,如 name="person[]"

    在普通的 html 中 我们可以有一个数组字段 例如person
  • 单个 Prisma 查询中的 LEFT JOINS 和聚合

    我有一个包含多个表的数据库 经常需要查询LEFT JOIN以便结果包含来自其他表的聚合数据 我的 Prisma 架构的片段 model posts id Int id unique default autoincrement user id
  • 使用变量作为格式指令的前缀参数

    我需要打印一些前面有可变数量空格的内容 例如 如果我需要在文本前打印 5 个空格 我会这样做 format T 5T My Text Output My Text 我可以使用变量来代替 5 并能够向其传递值吗 我正在寻找的是这样的 form
  • Twilio React Native - 无法解析模块加密

    我正在努力实施twilio打包到我的反应本机项目中 当我在文件中需要它时 项目将无法加载 并且我看到以下错误 Unable to resolve module crypto from Users myname Documents Proje
  • AWS 和 Terraform - 安全组中的默认出口规则

    我在许多提供者是 AWS 的 Terraform 项目中看到了可重复的配置 配置出站 出口 规则以允许所有出站流量 据我了解 这是 AWS 中的默认行为 如AWS 用户指南 默认情况下 安全组包含允许所有出站流量的出站规则 您可以删除规则并
  • Delphi有没有允许路径编辑的编辑控件?

    我有各种层次结构 并且希望使用编辑器 例如下面的资源管理器地址栏中找到的 Microsoft 编辑器 进行导航 Delphi有这样的组件吗 付费还是免费 TMS 的 TAdvExplorerTreeview 可能就是您所寻找的 http w
  • 如何基于 stanford-nlp 条件随机场模型训练法国 NER?

    我发现了 stanford NLP 的工具 发现它真的很有趣 我是一名法国数据挖掘者 数据科学家 喜欢文本分析 并且很想使用你们的工具 但是 NER 在法语中不可用 这让我很困惑 我很想制作自己的法语 NER 如果认为值得的话 甚至可能将其