使用 Gensim 提取短语时出错

2023-12-09

我正在尝试使用 Gensim 中的短语来获取句子中的二元组，如下所示。

from gensim.models import Phrases
from gensim.models.phrases import Phraser
documents = ["the mayor of new york was there", "machine learning can be useful sometimes","new york mayor was present"]

sentence_stream = [doc.split(" ") for doc in documents]
#print(sentence_stream)
bigram = Phrases(sentence_stream, min_count=1, threshold=2, delimiter=b' ')
bigram_phraser = Phraser(bigram)

for sent in sentence_stream:
    tokens_ = bigram_phraser[sent]
    print(tokens_)

即使它将“new”、“york”捕获为“new york”，但它不会捕获“machine”，将learning捕获为“机器学习”

然而，在Gensim 网站中显示的示例他们能够将“机器”、“学习”等词理解为“机器学习”。

请让我知道如何在上面的示例中将“机器学习”作为二元模型

gensim使用的技术Phrases纯粹基于共现统计：在公式中单词一起出现的频率与单独出现的频率也受min_count并与threshold value.

只是因为你的训练集中“new”和“york”同时出现了两次，而其他单词（如“machine”和“learning”）只同时出现了一次，“new_york”就变成了一个二元词，并且其他配对则不然。更重要的是，即使您确实找到了以下组合min_count and threshold这会将“machine_learning”提升为二元组，它会also将所有其他出现一次的二元组配对在一起 - 这可能不是您想要的。

实际上，要从这些统计技术中获得良好的结果，您需要大量不同的、真实的数据。（玩具大小的例子可能会因为表面的玩具大小的原因而表面上成功或失败。）

即使这样，他们也往往会错过人们认为合理的组合，并做出人们不会的组合。为什么？因为我们的大脑有更复杂的方式（包括语法和现实世界知识）来决定何时一堆单词代表一个概念。

因此，即使有更多更好的数据，也要为无意义的 n 元语法做好准备。调整或判断模型是否全面改善您的目标，而不是任何单点或临时检查是否符合您自己的敏感性。

（关于引用的 gensim 文档评论，我很确定如果您尝试Phrases仅在其中列出的两个句子中，它不会找到任何所需的短语 - 不是“new_york”或“machine_learning”。作为一个形象的例子，省略号...意味着训练集更大，结果表明额外的未显示文本很重要。只是因为您添加到代码中的第三句话才检测到“new_york”。如果您添加了类似的示例以使“machine_learning”看起来更像是统计上的异常配对，那么您的代码也可以促进“machine_learning”。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Gensim 提取短语时出错的相关文章

如果两点之间的距离低于某个阈值，则从列表中删除点

我有一个点列表只有当它们之间的距离大于某个阈值时我才想保留列表中的点因此从第一个点开始如果第一个点和第二个点之间的距离小于阈值那么我将删除第二个点然后计算第一个点和第三个点之间的距离如果该距离小于阈值则比较第一点和第四点
保存为 HDF5 的图像未着色

我目前正在开发一个将文本文件和 jpg 图像转换为 HDF5 格式的程序用HDFView 3 0打开似乎图像仅以灰度保存 hdf h5py File Sample h5 img Image open Image jpg data np
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
Python，将函数的输出重定向到文件中

我正在尝试将函数的输出存储到Python中的文件中我想做的是这样的 def test print This is a Test file open Log a file write test file close 但是当我这样做时我收到
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集？

我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络并使用反向传播算法将它们训练为监督数据集然而我对优化算法以及任务学习代理和环境的概念感到困惑例如我将如何实现一个神经网络例如 1 以使用 pybrain 遗传算法
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
将 Python 中的日期与日期时间进行比较

所以我有一个日期列表 datetime date 2013 7 9 datetime date 2013 7 12 datetime date 2013 7 15 datetime date 2013 7 18 datetime date
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解
cv2.VideoWriter：请求一个元组作为 Size 参数，然后拒绝它

我正在使用 OpenCV 4 0 和 Python 3 7 创建延时视频构造 VideoWriter 对象时文档表示 Size 参数应该是一个元组当我给它一个元组时它拒绝它当我尝试用其他东西替换它时它不会接受它因为它说参数不是

随机推荐

正则表达式对非捕获组的帮助

肯定是重复的但我找不到它我正在使用一个组来匹配重复的子字符串然而我不希望这群人被抓获这似乎是一个矛盾明确地说假设我想找到跟随全大写子集字符串的 3 个精确副本的任何字符为了 s hjgABABABfgfBBdqCCCugDD
递归清空多个文件的命令

我想递归地清除给定目录的许多日志文件的内容而不删除每个文件用一个简单的命令就可以实现吗我知道我能做到 gt logs logfile log一份一份的但是该文件夹中有很多日志这并不简单顺便说一句我正在使用 macOS Sier
super() 在构造函数中意味着什么？ [复制]

这个问题在这里已经有答案了代码是做什么的 super 在构造函数内部做什么例如这是我的类的构造函数 public abstract class Rectangle extends AbstractShape private doubl
在Python中查找函数的参数

我希望能够询问班级的 init 方法的参数是什么简单的方法如下 cls init func code co varnames code co argcount 但是如果类有任何装饰器那么这将不起作用它将给出装饰器返回的函数的参数列表
检查 xslt 中的条件

下面是输入 XML 小大对于较大的输入 XML 以及输出 xml 表示抱歉
访问 Ansible playbook 中的清单主机变量

在 Ansible 2 1 中我有一个角色被需要访问主机文件变量的剧本调用关于如何访问它有什么想法吗我正在尝试访问ansible ssh host in the test1以下清单的部分host file test1 test 1 a
全栈 NestJS 应用程序中的 OAuth2 流程

另一个 OAuth2 问题在其他地方没有完全涵盖我使用 NestJS 后端 React 前端 Passport 和我自己的数据库进行身份验证尝试添加一个 OAuth2 身份提供商 Google 我将 NestJS 应用程序配置为 OAu
Grails：更改 hibernate 方言时 SQL 语法错误

我正在将 Grails 与 mySQL 数据库一起使用并且尝试更改数据库引擎据我研究这可以最好地做到 dialect org hibernate dialect MyDialect 在 DataSource groovy 配置中但是
在 Regex/Javascript 中将一个字符交换为另一个字符

我想做类似的事情 var a This is an A B pattern ABABA a replace A B a replace B A 并让它返回 gt 这是 B A 模式 BABAB 代替 gt 这是一个 A A 模式 AAAAA
ElasticSearch：我们可以在索引期间同时应用 n-gram 和语言分析器吗

非常感谢 Random 我已将映射修改如下为了进行测试我使用电影作为索引类型注意我还添加了 search analyzer 如果没有这个我就无法得到正确的结果但是我对使用 search analyzer 有以下疑问 1 我们
Tapestry：字符编码问题

我有一个 Tapestry 应用程序它从表单中检索数据将其写入数据库然后显示结果只要不使用特殊字符一切都可以正常工作例如文本 Test 将导致 Test 我猜这个问题与错误的字符编码设置有关 Tapestry java 类 C
删除多个实体上的表行拆分时出错

我想删除拆分为两个实体的表行如果我尝试删除主要实体如果之前我没有使用以下命令加载相关的其他实体则会收到错误消息context Entry Reference 当我要删除整行时之前检索相关实体是不是有点愚蠢如果我继续评论我会收到以
折叠表达式：替换特定类型但转发所有其他类型：如何实现这一点？

我试图替换折叠表达式中的特定类型同时简单地转发所有其他类型但失败了 As std forward需要显式模板专门化我尝试提供另一组模板化重载但是这些尚未考虑重载解决方案如果这有效的话无论如何都会导致不明确的函数调用第二次尝试是专门
在 Python 3 中调用命令行参数

我正在用 Python 3 编写一个程序该程序将从 csv 文件中获取数据对其进行调整并将新数据写入由用户命名的 csv 文件我只是想了解命令行部分我希望它能够以这种格式正确执行 program py input csv outpu
如何在聚合物组件内部使用react？

似乎可以在聚合物网络组件中使用 React 但我找不到工作示例只能this 但似乎已经过时了 HTML
java 哪个布局管理器适合这个任务？

我有一个 JPanel 父级里面有 3 个 JPanel 子级它们目前都使用 GridLayout 并共同表示一个 UML 类问题是当我添加新属性或方法时所有 3 个 JPanel 都会增长到相同的大小欲望行为是无论何时添加方
固定与绝对

因此我检查了该网站发现一些问题与我正在寻找的内容很接近但并不完全相同我试图弄清楚如何定位元素以便在滚动向上向下时位置是固定的但是当浏览器调整大小向左向右时位置是绝对或相对的本质上我想将一个元素放置在距浏览器窗口
C#，如何让图片背景透明？

我有一个图片框里面有一个png 然而即使我将背景色设置为透明它也不是透明的有什么想法可能是错的吗 Thanks 我也遇到过有关透明图片的问题你必须通过代码来绘制它看我的问题图片框问题 EDIT In 绘画事件包含背景图像的控件
使用迭代器删除对象时出现 IllegalStateException

我已经被这个错误困扰了一段时间但我不知道问题出在哪里我的代码是这样的 ArrayList
使用 Gensim 提取短语时出错

我正在尝试使用 Gensim 中的短语来获取句子中的二元组如下所示 from gensim models import Phrases from gensim models phrases import Phraser documents

使用 Gensim 提取短语时出错

使用 Gensim 提取短语时出错 的相关文章

随机推荐

热门标签

使用 Gensim 提取短语时出错的相关文章