OpenNLP 训练中的“截止”和“迭代”是什么意思?

2024-04-10

是什么意思cut-off and iteration用于 OpenNLP 培训?或者自然语言处理。我只需要对这些术语进行外行解释。据我认为,迭代是算法重复的次数,截止是一个值,如果文本的值高于某个特定类别的截止值,它将映射到该类别。我对吗?


正确,这个词迭代指的是一般概念迭代算法,人们开始通过连续产生(希望越来越准确)一些“理想”解决方案的近似值来解决问题。一般来说,迭代次数越多,结果就越准确(“更好”),但当然需要执行的计算步骤也越多。

期限cutoff (aka 截止频率)用于指定减小尺寸的方法n-gram 语言模型(如 OpenNLP 使用的,例如其词性标注器)。考虑以下示例:

Sentence 1 = "The cat likes mice."
Sentence 2 = "The cat likes fish."
Bigram model = {"the cat" : 2, "cat likes" : 2, "likes mice" : 1, "likes fish" : 1}

如果在此示例中将截止频率设置为 1,则 n 元模型将简化为

Bigram model = {"the cat" : 2, "cat likes" : 2}

也就是说,截止方法从语言模型中删除那些在训练数据中不经常出现的 n 元语法。有时有必要减小 n-gram 语言模型的大小,因为偶数二元组(更不用说三元组、四元组等)的数量会随着语料库的增大而呈爆炸式增长。然后,剩余信息(n-gram 计数)可用于统计估计给定单词(或其 POS 标签)的概率 (n-1) 以前的 单词(或 POS 标签)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

OpenNLP 训练中的“截止”和“迭代”是什么意思? 的相关文章

  • R tm removeWords函数不删除单词

    我试图从我构建的语料库中删除一些单词 但它似乎不起作用 我首先遍历所有内容并创建一个数据框 按频率顺序列出我的单词 我使用此列表来识别我不感兴趣的单词 然后尝试创建一个删除单词的新列表 但是 这些词仍然保留在我的数据集中 我想知道我做错了什
  • R,将多行文本数据框合并到一个单元格中

    我有一个如下所示的文本数据框 gt nrow gettext df 1 3 gt gettext df gettext 1 hello 2 Good to hear back from you 3 I ve currently writte
  • 字节 vs 字符 vs 单词 - n-gram 的粒度是什么?

    至少可以考虑 3 种类型的 n gram 来表示文本文档 字节级 n 元语法 字符级 n 元语法 词级 n 元语法 我不清楚应该使用哪一个来完成给定的任务 聚类 分类等 我在某处读到 当文本包含拼写错误时 字符级 n gram 优于单词级
  • 如何使用机器学习提取公司债券信息

    我正在开发一个项目 需要从非结构化电子邮件中提取公司债券信息 经过大量研究后 我发现机器学习可以用于信息提取 我尝试了 Opennlp NER 命名实体识别器 但我不确定我是否为这个问题选择了正确的库 因为我得到了结果 但没有达到标准 有人
  • 在 R tm 包中,从 Document-Term-Matrix 构建语料库

    使用 tm 包从语料库构建文档术语矩阵非常简单 我想从文档术语矩阵构建一个语料库 令 M 为文档集中的文档数 令 V 为该文档集词汇表中的术语数量 那么文档术语矩阵就是 M V 矩阵 我还有一个长度为 V 的词汇向量 词汇向量中是由文档术语
  • Lucene实体提取

    给定实体术语的有限字典 我正在寻找一种使用 Lucene 进行智能标记的实体提取的方法 目前我已经能够将 Lucene 用于 搜索具有一定模糊性的复杂短语 突出显示结果 但是 我不知道如何 获取匹配短语的准确偏移量 为每场比赛进行特定于实体
  • 使用 GoogleFinanceSource 函数通过 tm.plugin.webmining 包进行文本挖掘

    我正在在线书籍上学习文本挖掘整洁的文本挖掘 http tidytextmining com 在第五章中 http tidytextmining com dtm html financial http tidytextmining com d
  • C# 情感分析 [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 有谁知道一个 最好是开源的 C 库可以用来计算某些给定文本的整体情绪 查看基于朴素贝叶斯分类的开源情感
  • tm 包中的 findAssocs 出现问题

    我正在尝试使用 tm 包查找与术语文档矩阵中的特定单词相关的单词 我在用findAssocs去做这个 论点findAssocs are x 术语 文档矩阵 term 持有术语的字符 corlimit 相关下限的数字 我一直在得到numeri
  • “RTextTools”create_matrix 出现错误

    我正在运行 RTextTools 包来构建文本分类模型 当我准备预测数据集并尝试将其转换为矩阵时 我收到错误如下 Error in if attr weighting Acronym tf idf weight lt 1e 09 argum
  • R tm:将“PCorpus”后端文件哈希数据库重新加载为语料库(例如在重新启动的会话/脚本中)

    从这个网站上的答案中学到了很多东西 谢谢 终于是时候问我自己的问题了 我使用 R tm 和 lsa 包 来创建 清理和简化大约 15 000 个文本文档的语料库 然后运行 LSA 潜在语义分析 我在 Mac OS X 10 6 下的 R 3
  • 在 MATLAB 中对文本进行聚类

    我想在 MATLAB 中对文本进行层次凝聚聚类 说吧 我有四句话 I have a pen I have a paper I have a pencil I have a cat 我想把上面的四个句子聚类一下 看看哪个更相似 我知道统计工具
  • 使用哈希字典的词形还原函数不适用于 R 中的 tm 包

    我想使用大型外部词典 格式如下面的 txt 变量所示 对波兰语文本进行词形还原 我并不幸运 无法使用流行的文本挖掘包来选择波兰语 答案https stackoverflow com a 45790325 3480717 https stac
  • Twitter 中的表情符号 R 中的情感分析

    如何处理 摆脱表情符号 以便我可以对推文进行排序以进行情感分析 得到 sort list y 中的错误 输入无效 Thanks 这就是从 twitter 到 r 的表情符号的显示方式 xed xed u0083 xed xed xed xe
  • OpenNLP:类文件版本 55.0 错误,应为 52.0

    我在 IntelliJ IDEA 版本 17 0 6 中使用 Open NLP 版本 apache opennlp 2 2 0 库 但收到以下消息 java cannot access opennlp tools namefind Name
  • R 中带有 tm 包的计数器 ngram

    我使用 R 中的对象和字典 documentTermMatrix 创建了一个用于记录文档中单词频率的脚本 该脚本适用于单个单词 而不适用于复合词 es 富 酒吧 富酒吧 这是代码 require tm my docs lt c foo ba
  • python中使用numpy数组出现内存错误

    我收到此代码的以下错误 model lda LDA n topics 15 n iter 50 random state 1 model fit X topic word model topic word print type topic
  • 从复杂(混合)句子中提取简单句子的算法?

    有没有一种算法可以用来从段落中提取简单的句子 我的最终目标是稍后对生成的简单句子运行另一个算法来确定作者的情绪 我已经从 Chae Deug Park 等来源对此进行了研究 但没有讨论准备简单的句子作为训练数据 提前致谢 看一眼Apache
  • 如何在 python-gensim 中使用潜在狄利克雷分配(LDA)来抽象二元组主题而不是一元组?

    LDA 原始输出 一元语法 主题1 水肺 水 蒸汽 潜水 主题2 二氧化物 植物 绿色 碳 所需输出 二元组主题 主题1 水肺潜水 水蒸气 主题2 绿色植物 二氧化碳 任何想法 鉴于我有一个名为docs 包含文档中的单词列表 我可以使用 n
  • 比较文本文档含义的最佳方法?

    我正在尝试找到使用人工智能和机器学习方法来比较两个文本文档的最佳方法 我使用了 TF IDF Cosine 相似度和其他相似度度量 但这会在单词 或 n gram 级别上比较文档 我正在寻找一种方法来比较meaning的文件 最好的方法是什

随机推荐

  • 如何使用 Material Design 设计警报对话框片段中的按钮样式?

    我想更改警报对话框上的默认按钮样式 标准警报对话框片段 在 Android L 中 如下所示 我希望将右侧按钮的样式设置为普通按钮而不是无边框按钮 Google 本身似乎在各种对话框中使用了这种模式 例如 有谁知道这是否可能 而无需从头开始
  • 如何在 Three.js 中使用反射?

    我想在带有 Three js 的 WebGL 页面中拥有一个反射立方体表面 它应该类似于手机显示屏 反射一些光 但它仍然必须是黑色的 我创建了一个反射立方体 以及反射球体 的示例 并附有详细的注释 现场版本位于 http stemkoski
  • 当用户单击外侧时,警报对话框消失

    大家好 我有一个带有两个文本框的警报框 这里的问题是当用户在弹出窗口之外单击时警报对话框消失 或者当用户单击 确定 按钮时警报对话框消失 所以请在这方面帮助我 提前致谢 final AlertDialog Builder builder n
  • 如何计算FB页面的点赞数?

    我必须做一个非常简单的操作 但我的编程能力还不够 我必须计算 Facebook 页面上的点赞数并将该数字打印在我的网站上 我有两个脚本可以很好地完成普通网站的工作 但它们不想显示页面的点赞数
  • java.lang.NoClassDefFoundError: android.support.v4.view.LayoutInflaterCompat

    我在 4 4 2 版本的 Samsung note 2 中收到以下错误 我也尝试过 HTC One X 4 2 2 我认为它是棒棒糖之前的 因为它在 Lollipop 上运行良好 有什么猜测吗 这是我的 gradle 文件 apply pl
  • 如何使用 Python 获取存储库分支的列表

    我正在尝试使用 Python 和以下代码获取存储库上所有可用分支的列表 import subprocess branches All command git branch r branch list subprocess check out
  • 向客户端发送 Hibernate 代理类会出现哪些问题

    我有一个 POCO 类 在 WCF 服务层中与 NHibernate 一起使用 我正在考虑尝试将 NHibernate 代理类发送到客户端 这是我控制的客户端 我们通过系统范围的保留来处理记录更新 因此在任何给定时间只能向客户端发送该实体的
  • 如何使用 AngularJS 以编程方式创建 URL

    目前我正在研究 AngularJS 框架 我正在使用 route 服务来深度链接到我的单页应用程序 现在 我想在我的应用程序内部导航 例如 通过仅更改当前 URL 的搜索部分 在 JavaScript 中使用 location 服务很容易做
  • 如果 Google App Engine cron 作业有 10 分钟限制,那么为什么我会在正常的 30 秒后收到 DeadlineExceededError ?

    根据https developers google com appengine docs python config cron https developers google com appengine docs python config
  • 在C#中打印数组的所有内容

    我试图在调用一些改变数组的方法后打印出数组的内容 在Java中我使用 System out print Arrays toString alg id 我如何在 C 中做到这一点 你可以试试这个 foreach var item in you
  • 使用路由器传递数据

    我在将数据传递给其他组件时遇到问题 这是一个例子 onEdit data this router navigate edit state data relativeTo this activatedRoute 还有我的路由器ts file
  • 在 Woocommerce 中的 WYSIWYG 编辑器字段中添加或替换变体字段

    我正在尝试弄清楚如何将 Woocommerce 变体订阅产品文本字段转换为所见即所得编辑器 How it looks now 正如您所看到的 我将代码放入该字段以更新其外观 但这对于不懂代码的客户来说不起作用 如何向该字段添加文本编辑器 函
  • 握手过程中收到close_notify

    我已在所有 18 台服务器上配置了 SSL HTTPS 所有 18 台服务器均使用 SSL 相互通信 一切都工作正常 突然我得到了这个错误 握手期间收到close notify 日志 2011 06 03 03 36 17 372 Log
  • 使用react-router-dom(v6)成功登录后Reactjs重定向到仪表板页面

    我正在使用 redux toolkit 制作简单的 Reactjs 登录表单 我想重定向到dashboard登录成功后的页面 它抛出以下错误 我是 ReactJS 的新手 如果我错过了什么 请告诉我 Error Uncaught in pr
  • 如何修复 Cocoapods 安装设置错误?

    我正在尝试在我的 mac 上安装 cocoapods 但无法安装 它显示以下错误 sudo gem update system Latest version currently installed Aborting sudo gem ins
  • 是否有任何库可以将 SQL 查询表示为 Java 代码中的对象? [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我想知道是否有任何库可以用来将 SQL 查询表示为 Java 中的对象 在代码中 我有大量 java l
  • 删除所有表的django命令是什么?

    是否有 django 命令 A 删除所有表 B 删除所有表中的所有数据 C 创建模型中定义的所有表 我现在找不到这些 我所说的命令是指那些小事情 比如 runserver etc A 删除所有表 manage py sqlclear将打印删
  • UISearchBar 与 InputView

    我正在为我的应用程序制作自定义键盘 它与 UITextField 配合得很好 但 UISearchBar 不支持 inputView UIView inputView if self keyboard nil self keyboard M
  • 在 Django Web 应用程序中处理计算密集型任务

    我有一个桌面应用程序 正在将其移植到 Django Web 应用程序 该应用程序有一些计算量相当大的部分 使用 numpy scipy 和 pandas 等库 显然 将计算密集型代码导入到 Web 应用程序中并运行它并不是一个好主意 因为这
  • OpenNLP 训练中的“截止”和“迭代”是什么意思?

    是什么意思cut off and iteration用于 OpenNLP 培训 或者自然语言处理 我只需要对这些术语进行外行解释 据我认为 迭代是算法重复的次数 截止是一个值 如果文本的值高于某个特定类别的截止值 它将映射到该类别 我对吗