如何在 python-gensim 中使用潜在狄利克雷分配（LDA）来抽象二元组主题而不是一元组？

2024-04-13

LDA 原始输出

一元语法
- 主题1 - 水肺、水、蒸汽、潜水
- 主题2 -二氧化物、植物、绿色、碳

所需输出

二元组主题
- 主题1 - 水肺潜水，水蒸气
- 主题2-绿色植物，二氧化碳

任何想法？

鉴于我有一个名为docs，包含文档中的单词列表，我可以使用 nltk.util.ngrams 或您自己的函数将其转换为单词+二元组（或三元组等）数组，如下所示：

from nltk.util import ngrams

for doc in docs:
    docs[doc] = docs[doc] + ["_".join(w) for w in ngrams(docs[doc], 2)]

然后将此字典的值作为语料库传递给 LDA 模型。因此，由下划线连接的二元组被视为单个标记。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

textmining

LDA

gensim

如何在 python-gensim 中使用潜在狄利克雷分配（LDA）来抽象二元组主题而不是一元组？的相关文章

如何在 R 中查找 DTM 中的术语频率？

我一直在使用 tm 包创建 DocumentTerm 矩阵如下所示 library tm library RWeka library SnowballC src lt DataframeSource data frame data3 Jo
AttributeError：使用 CRF 时“Tensor”对象没有属性“_keras_history”

我知道关于这个问题有很多问题我已经阅读了其中的一些问题但没有一个对我有用 I am trying to build a model with the following architecture 代码如下 token inputs In
日语/字符的编程技巧[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个想法可以编写一些网络应用程序来帮助我也许还有其他人更好地学习日语因为我正在学习日语我的问题是该网站主要是英文的所以
使用 Python 可视化 LDA 模型

我有一个 LDA 模型包含 10K 文档中 10 个最常见的主题现在它只是对每个主题的单词及其相应概率分布的概述我想知道 python 是否有可用的东西来可视化这些主题 pyLDAvis https pypi python org p
使用gensim加载LdaMallet模型并对未见过的文档进行分类的正确方法

在我的项目中我使用Python库gensim https radimrehurek com gensim models wrappers ldamallet html用于主题建模文本提取我尝试加载经过训练的 LdaMallet 模型来
在Python或Sklearn中用整数值对具有字符串值的列变量进行编码

如何用整数值对数据表中字符串类型的列值进行编码例如我有两个特征变量颜色可能的字符串值 R G 和 B 和技能可能的字符串值 C Java SQL 和 Python 给定数据表有两列 Color gt R G B B G R B G
python 中单词的动名词形式

我想获得字符串的动名词形式我还没有找到调用库来获取动名词的直接方法我应用了以 ing 结尾的单词的规则但是因为异常导致我收到了一些错误然后我检查 cmu 单词以确保生成的动名词单词正确代码如下 import cmudict im
词干函数错误：词干需要一个位置参数

这里的stem函数显示错误指出stem需要循环中的一个位置参数如所讨论的 from nltk stem import PorterStemmer as ps text my name is pythonly and looking fo
BERT - 池化输出与序列输出的第一个向量不同

我在 Tensorflow 中使用 BERT 有一个细节我不太明白根据文档 https tfhub dev google bert uncased L 12 H 768 A 12 1 https tfhub dev google bert
从 Pyspark LDA 模型中提取文档主题矩阵

我已经通过 Python API 在 Spark 中成功训练了 LDA 模型 from pyspark mllib clustering import LDA model LDA train corpus k 10 这工作得很好但我现在需
显式语义分析

我遇到了这个术语显式语义分析它使用维基百科作为参考找到文档中的相似性并将它们分类如果我错了请纠正我我遇到的链接是here http www cs technion ac il gabr resources code esa es
这个 NLP 问题层次结构描述中的最大池化是什么类型

我正在尝试实现这个描述以及我所做的我生成了形状的 uni gram bi gram tri gram 15 512 使用填充然后对于每个单词我连接三个特征向量 3 512 然后我向他们申请 Globalmaxpooling1D 我不知
如何使用 word2vec 找到与向量最接近的单词

我刚刚开始使用 Word2vec 我想知道如何找到最接近向量的单词我有这个向量它是一组向量的平均向量 array 0 00449447 0 00310097 0 02421786 dtype float32 有没有一种直接的方法可以在我
将单引号替换为双引号并排除某些元素

我想用双引号替换字符串中的所有单引号但出现的情况除外例如 n t ll m 等 input the stackoverflow don t said hey what output the stackoverflow don t sai
实时跟踪每分钟/小时/天的前 100 个 Twitter 单词

我最近遇到这样一个面试问题 Given a continuous twitter feed design an algorithm to return the 100 most frequent words used at this min
python中的语音识别持续时间设置问题

我有一个 Wav 格式的音频文件我想转录我的代码是 import speech recognition as sr harvard sr AudioFile speech file wav with harvard as source
BERT 输出不确定

BERT 输出是不确定的当我输入相同的输入时我希望输出值是确定性的但我的 bert 模型的值正在变化听起来很尴尬同一个值返回两次一次也就是说一旦出现另一个值就会出现相同的值并重复如何使输出具有确定性让我展示我的代码片段
快速NLTK解析成语法树

我正在尝试将数百个句子解析为语法树我需要快速完成问题是如果我使用 NLTK 那么我需要定义一个语法而我不知道我只知道它会是英语我尝试使用this https github com emilmont pyStatParser统计解析器
是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
将 word2vec 模型查询的结果保存在 csv 文件中？

我正在语料库上训练 word2vec 模型然后查询该模型这工作正常但我正在运行一个实验需要针对不同的条件调用模型保存每个条件的模型查询每个条件的模型然后将查询的输出保存到 csv 文件中例如进一步分析所有条件我研究了 ge

随机推荐

Android中如何使用Intent在Activity之间传递值？

我想将一个活动类别中的位置值传递给另一个活动类别我的代码如下 protected void onListItemClick ListView listView View v int position long id switch posi
Swing UI 线程是何时创建的？

在运行 Swing 程序的过程中什么时候 UI 线程事件调度线程 EDT 首先产生想必任何给定的 JVM 都可以做任何它想做的事例如始终在启动时生成 EDT 无论或从未使用过但作为一个实际问题当通常会创建 EDT 吗它是
如何使用 NHibernate 的 criteria api 和实体查询子属性以仅加载与谓词条件匹配的子属性

假设如下 public class Order public virtual int OrderId get set public virtual ISet
向由 proc_open() 打开的进程发送信号

我们这里有一个实用程序正在使用proc open 调用 ssh 在远程计算机上运行命令然而在某些情况下我们需要停止远程机器上的命令但是proc close and proc terminate 不要将所需的信号发送到 ssh 连接的
在 Typescript 中为“this”关键字键入注释

我有一个独立的函数旨在使用提供的上下文Function prototype call 例如 function foo return this bar gt foo call bar baz baz 有没有办法为以下内容提供 Typescr
连接两个表并使用 where 子句过滤它们

我在获取所需的 SQL 输出时遇到问题我有两个这样的表 tblOrder ID User Status 1 1 0 2 1 0 3 2 1 表订单项 ID OrderID Product Quantity 1 1 A 2 2 1 B 1
在实体框架代码优先中，为什么主键总是存储为聚集索引？

我正在更多地了解一般索引特别是聚集索引在 Markus Winand 的这篇文章中 http use the index luke com blog 2014 01 unreasonable defaults primary key c
如何将两个已排序数组合并为一个已排序数组？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案这是我在采访中被问到的问题这是我提供的解决方案 public static int merge int a int b int an
如何共享App.config？

如何在 Visual Studio 解决方案中的多个项目之间共享链接 App config 或 Web config In the 添加现有项目从 Visual Studio 获得的对话框解决方案浏览器您可以将磁盘上另一个文件的链接添加
将文件的路径位置更改为所需路径

我想将文件中定义的内容路径即logging properties 替换为jboss7位置的所需位置路径基本上我正在使用安装程序我必须浏览我的 jboss7 文件夹并将其定位到用户所需的任何位置但在 jboss7 的几个文件中有一些
如何编辑swift错误断点？

我想设置 Swift 错误断点来处理 Swift Error错误类型迅速但我没有得到 What to set as Type value in BreakPoint 如果您只是创建一个 Swift 错误断点它会在任何符合 ErrorTy
为什么ostringstream在多线程环境下不能很好的工作

也许有些事情很奇怪当我在多线程环境中使用STL ostringstream 类时我发现每个线程的执行时间随着线程数量的增加而线性增加我不知道为什么会这样我尝试检查 ostringstream 源代码但找不到任何同步代码 ostri
在android中围绕两个手指的中点缩放

我有一个HorizontalScrollView其中有多个视图我已经实施了pinch zoom gesture其中我的两根手指之间的多个视图被缩放但我面临一个小问题当我进行捏缩放时捏缩放的中点正在移动但为了用户体验我希望该点保持
Next.js 从 Docker 容器无限重载

我正在尝试制作一个简单的 Next js 应用程序它使用 Firebase 身份验证并从 Docker 容器运行以下内容在本地运行良好从构建的 docker 容器运行然而当我部署到 Heroku 或 Google Cloud Ru
UIImageView 的触摸向上和触摸向下操作

我想要实现的是当用户触摸 UIImageView 时设置 Image1 当用户抬起手指时设置 Image2 我只能用此代码获取 UIGestureRecognizerState Ended var tap UITapGestureReco
提高 python 脚本的吞吐量

我正在通过 dig 处理来自 DNSBL 的数千个域名列表创建 URL 和 IP 的 CSV 这是一个非常耗时的过程可能需要几个小时我的服务器的 DNSBL 每十五分钟更新一次有没有办法可以提高 Python 脚本的吞吐量以跟上服务
如何检查日期范围是否存在

正如你从标题中可能注意到的我的问题很难表达但有一个问题我有包含一些数据的 MySQL 表在注册表中我必须指定预订开始和结束时间如何查询指定时间是否已登记预订例如我不应该能够添加从 13 20 开始到 15 00 结束的新预订
Azure API 管理和 API 版本控制

Azure API 管理如何帮助我管理不同版本的 API 并将所选操作从旧版本的 API 重新路由到新版本的 API 有两种方法可以实现这一目标您可以使用不包含版本段的服务 URL 配置 API 例如 https my api https
将多个文件连接成一个文件对象，而不创建新文件

这个问题与Python 连接文本文件 https stackoverflow com questions 13613336 python concatenate text files 我有一个清单file names like file1
如何在 python-gensim 中使用潜在狄利克雷分配（LDA）来抽象二元组主题而不是一元组？

LDA 原始输出一元语法主题1 水肺水蒸汽潜水主题2 二氧化物植物绿色碳所需输出二元组主题主题1 水肺潜水水蒸气主题2 绿色植物二氧化碳任何想法鉴于我有一个名为docs 包含文档中的单词列表我可以使用 n

如何在 python-gensim 中使用潜在狄利克雷分配（LDA）来抽象二元组主题而不是一元组？

LDA 原始输出

所需输出

如何在 python-gensim 中使用潜在狄利克雷分配（LDA）来抽象二元组主题而不是一元组？ 的相关文章

随机推荐

热门标签

如何在 python-gensim 中使用潜在狄利克雷分配（LDA）来抽象二元组主题而不是一元组？的相关文章