ValueError：无法在空集合上计算 LDA（无术语）

2023-12-30

当尝试计算较小规模的语料库的 lda 时，在 python 中出现此错误，但在其他情况下工作正常。

语料库的大小是 15，我尝试将主题数设置为 5，然后将其减少到 2，但它仍然给出相同的错误：ValueError：无法在空集合上计算 LDA（无术语）

在这一行出现错误：lda = models.LdaModel(corpus, num_topics=topic_number, id2word=dictionary, passes=passes)

语料库在哪里corpus = [dictionary.doc2bow(text) for a, id, text, s_date, e_date, qd, qd_perc in texts]

为什么没有给出任何条件？

终于想通了。小文档的问题是，如果您尝试从字典中过滤极端内容，则可能会在语料库中得到空列表。corpus = [dictionary.doc2bow(text)].

所以参数的值dictionary.filter_extremes(no_below=2, no_above=0.1)之前需要进行相应且仔细的选择corpus = [dictionary.doc2bow(text)]

我刚刚删除了过滤器极端值，lda 模型现在运行良好。不过我会更改filter Extreme中的参数值并稍后使用它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

gensim

LDA

topicmodeling

ValueError：无法在空集合上计算 LDA（无术语）的相关文章

Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
从数据框中按索引删除行

我有一个数组wrong indexes train其中包含我想从数据框中删除的索引列表 0 63 151 469 1008 要删除这些索引我正在尝试这样做 df train drop wrong indexes train 但是代码失败
Python中Decimal类型的澄清

每个人都知道或者至少每个程序员都应该知道 http docs oracle com cd E19957 01 806 3568 ncg goldberg html 即使用float类型可能会导致精度错误然而在某些情况下精确的解决方
django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

requests.get(url) 未返回此特定 url

我正在尝试使用 requests get url text 从该网站获取 HTML 但是当使用此特定网址调用 requests get url 时无论我等待多久它都不会返回这适用于其他网址但这个网址给我带来了麻烦代码如下 fro
@DirtiesContext 不适用于 @Nested 测试

经过几个小时的谷歌研究后我仍然不知道如何使用 DirtiesContext with Nested类假设以下集成测试类 ExtendWith SpringExtension class SpringBootTest AutoConfigu
VS 2019 更新后运行 azure 函数时出现调试配置文件不存在错误

更新到版本 16 10 0 后无法从 Visual Studio 2019 调试 azure 函数出现以下错误此问题的问题是未正确安装引用的 Azure Function Tools 版本因此当它被部分下载时它甚至不会尝试重新安装
如何告诉CRAN自动安装包依赖项？

我在 R 中开发了一个包当我在本地计算机中检查并构建它时它可以正常工作但是当我在 CRAN 中尝试时出现包依赖错误我的包依赖于其他包的两个功能如果我在下面列出其他包description using Depends or imp
JS中如何将字符串类型的十六进制转换为数字？

例如假设我有一个十六进制 0xdc 如何转换这个十六进制string转为十六进制Number输入JS 从字面上看只是丢失了引号这Number 构造函数和parseInt 只是将其转换为 0 到 255 之间的整数我只是想要0xdc E
有效统计 MongoDB 中出现的百分比

所以我正在修改 MongoDB 并且试图获得count 聚合查询可以适当扩展以便我可以轻松计算文档中某些值在整个集合中出现的百分比我有一个结构如下的文档 foo bar moo cow values alpha true beta f
在数据库中更改后，Prestashop 重定向到旧域

我正在尝试创建 prestashop 1 6 电子商店的副本用于从domain com 到 dev domain com 的开发目的我遵循的过程是禁用缓存和编译将文件从domain com复制到dev domain com 从dom
如何加速向量叉积计算

嗨我是这里的新手正在尝试使用 numpy 进行一些计算我在一次特定的计算中经历了很长的时间并且无法找到任何更快的方法来实现同样的事情基本上它是射线三角形相交算法的一部分我需要计算两个不同大小的矩阵的所有向量乘积我使用的代码是
aws ecs 优化的 AMI 中的私有 docker 注册表身份验证不成功

我正在编写一个 terraform 脚本来创建 ECS 自动缩放集群我创建了一个集群并向其中添加了 ec2 容器实例我的任务定义文件包含来自私有 docker 存储库的图像我浏览了 aws 官方文档并找到了一个页面私人登记认证 htt
通过 Geodjango 中的几何交集关联两个模型

在 GeoDjango 中两个有两个包含几何字段的模型 from django contrib gis db import models class Country models Model territory models MultiP
AudioKit：我可以在不调用 AudioKit.stop() 的情况下禁用 AKMicrophone 吗？

我有一个具有两个功能的应用程序一个扮演一个AKMetronome并允许当应用程序不在前台时进行后台播放另一个是调谐器功能它使用AKMicrophone 仅当应用程序位于前台时才需要处于活动状态这些功能可以同时使用调谐器处于活动状态
为什么我不能在同一结构中存储值和对该值的引用？

我有一个值我想存储该值和对的引用我自己的类型中该值内的某些内容 struct Thing count u32 struct Combined lt a gt Thing a u32 fn make combined lt a gt gt
如何将初始参数传递给 django 的 ModelForm 实例？

我遇到的具体情况是这样的我有一个交易模型其中包含以下字段 from to 两者都是ForeignKeys to auth User型号和amount 在我的表单中我想向用户展示 2 个要填写的字段 amount and from t
从命令行运行 Eclipse 项目

我在从命令行编译和运行 Eclipse java 项目时遇到两个问题当我刚刚从 Eclipse IDE 运行时这工作得很好我尝试过谷歌搜索但无法真正让事情发挥作用任何帮助深表感谢问题 1 当我尝试从 java 文件所在目录以外的
在所有路线上反应加载屏幕？

我了解如何获得旋转屏幕state and componentDidMount 但我将如何在所有路线之间创建一个加载屏幕而无需编写componentDidMount 在每个组件中我的 app js 文件 class App extends
无法在 WebView 中输入内容

我在与某个人交互时遇到问题WebView 我正在显示一个 HTML 登录表单WebView我无法在表单的任何输入字段内键入内容我确实可以与链接选择框按钮等进行交互这是我的代码的示例基本上我从 xml 中检索 Web 视图并将其设置
在循环内声明变量，是好习惯还是坏习惯？

问题 1 在循环内声明变量是好习惯还是坏习惯我读过有关是否存在性能问题的其他线程大多数人说不并且您应该始终将变量声明为靠近它们将要使用的位置我想知道是否应该避免这种情况或者是否确实是首选 Example for int count
如何填充页面网格并将内容宽度布置在单列中？

我正在尝试为网络开发创建弹性框列然而我所能做的就是制作一列弹性盒有哪些基本 CSS 代码可以验证 div 卡是否始终填充页面网格并且宽度足够小内容会布局在单列中 charset utf 8 CSS Code section dis
为 matplotlib Slider 小部件设置刻度标签

The slider https matplotlib org stable api widgets api html highlight slider matplotlib widgets Slidermatplotlib 中的行为随着最
ValueError：无法在空集合上计算 LDA（无术语）

当尝试计算较小规模的语料库的 lda 时在 python 中出现此错误但在其他情况下工作正常语料库的大小是 15 我尝试将主题数设置为 5 然后将其减少到 2 但它仍然给出相同的错误 ValueError 无法在空集合上计算 LDA

ValueError：无法在空集合上计算 LDA（无术语）

ValueError：无法在空集合上计算 LDA（无术语） 的相关文章

随机推荐

热门标签

ValueError：无法在空集合上计算 LDA（无术语）的相关文章