组合常见搭配的 NLP 流程

2024-03-18

我有一个语料库，我在 R 中使用 tm 包（并且还在 python 中的 NLTK 中镜像相同的脚本）。我正在使用一元组，但希望某种解析器能够将通常位于同一位置的单词组合成一个单词——即，我不想再在我的单词中分别看到“New”和“York”当它们一起出现时的数据集，并看到这个特定的对表示为“纽约”，就好像它是一个单词，并与其他一元词一起。

将有意义的常见 n 元语法转换为与一元语法相同的基础的过程称为什么？难道不是一件事吗？最后，什么会tm_map看起来像这个？

mydata.corpus <- tm_map(mydata.corpus, fancyfunction)

和/或在Python中？

我最近有一个类似的问题 https://stackoverflow.com/questions/42752356/create-a-dictionary-with-word-groups并尝试各种搭配

这是我选择识别搭配词对的解决方案：

from nltk import word_tokenize
from nltk.collocations import *

text = <a long text read in as string string>

tokenized_text = word_tokenize(text)

bigram_measures = nltk.collocations.BigramAssocMeasures(tokenized_text)
finder = BigramCollocationFinder.from_words()
scored = finder.score_ngrams(bigram_measures.raw_freq)

sorted(scored, key=lambda s: s[1], reverse=True)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

组合常见搭配的 NLP 流程的相关文章

检查子字符串是否在字符串列表中？

我之前已经找到了这个问题的一些答案但它们对于当前的Python版本来说似乎已经过时了或者至少它们对我不起作用我想检查字符串列表中是否包含子字符串我只需要布尔结果我找到了这个解决方案 word to check or wordlis
Python函数组成

我尝试使用良好的语法来实现函数组合这就是我所得到的 from functools import partial class compfunc partial def lshift self y f lambda args kwargs s
Python 中 time.sleep 和多线程的问题

我对 python 中的 time sleep 函数有疑问我正在运行一个脚本需要等待另一个程序生成 txt 文件虽然这是一台非常旧的机器所以当我休眠 python 脚本时我遇到了其他程序不生成文件的问题除了使用 time sl
如何在动态执行的代码字符串中使用inspect.getsource？

如果我在文件中有这段代码 import inspect def sample p1 print p1 return 1 print inspect getsource sample 当我运行脚本时它按预期工作在最后一行源代码sampl
当我从本地计算机更改为虚拟主机时，从 python 脚本调用 pdftotext 不起作用

我编写了一个小的 python 脚本来解析提取 PDF 中的信息我在本地机器上测试了它我有 python 2 6 2 和 pdftotext 版本 0 12 4 我正在尝试在我的虚拟主机服务器 dreamhost 上运行它它有 py
R-在多个图的外缘绘制居中图例

我想在具有多个绘图的设备中的绘图区域之外绘制居中图例 SO 中提出了许多关于更改 R 图中图例位置的问题略有不同例如 1 R 组合图的通用标题和图例 https stackoverflow com questions 8736966 r
无法在我的程序中使用 matplotlib 函数

我正在 Windows 10 中运行 Anaconda 安装 conda 版本 4 3 8 这是我尝试在 python 命令行中运行的代码 import matplotlib pyplot as plt x 1 2 3 4 y 5 6 7
使用 R 从字符串中提取函数参数

最好使用stringr包我想创建一个函数extract 以字符串向量作为参数 vec lt c div span icon hospital user i18n t Enrolments or i18n t Paper a string
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
预测测试图像时出现错误 - 无法重塑大小数组

我正在尝试使用 TensorFlow 和 Keras 在 Python 中进行图像识别并且我已经关注了下面的博客 https stackabuse com image recognition in python with tensorfl
Python 或 C 语言中的 Matlab / Octave bwdist()

有谁知道 Matlab Octave bwdist 函数的 Python 替代品此函数返回给定矩阵的每个单元格到最近的非零单元格的欧几里得距离我看到了一个 Octave C 实现一个纯 Matlab 实现我想知道是否有人必须用 AN
重定向 python 交互式帮助()

我正在为使用 Qt 的应用程序开发交互式 python shell 但是我似乎无法获得重定向的交互式帮助我的 python 代码中有这个 class OutputCatcher def init self self data def wr
R lubridate：当地语言的工作日

如何获取本地语言的工作日和月份 My code library lubridate data lt c 10 02 2015 11 03 2015 data lubri lt dmy data wday data lubri label T
Shiny可以识别用鼠标选择的文本（突出显示的文本）吗？

我需要用户将文本片段分配给 Shiny 中的类别或代码基本上我希望用户突出显示输出中的文本在下面的示例中来自table or text输出然后按一个按钮 code 并将选定的文本分配给应用程序内的对象在下面的应用程序中所选文
如何使用logging.conf文件使用RotatingFileHandler将所有内容记录到文件中？

我正在尝试使用RotatingHandler用于 Python 中的日志记录目的我将备份文件保留为 500 个这意味着我猜它将创建最多 500 个文件并且我设置的大小是 2000 字节不确定建议的大小限制是多少如果我运行下面的代码
在 anaconda 环境下运行 qsub

我有一个程序通常在 Linux 的 conda 环境中运行因为我用它来管理我的库指令如下 source activate my environment python hello world py 我怎样才能跑你好世界 py在与 PBS
在不同的 GPU 上同时训练多个 keras/tensorflow 模型

我想在 Jupyter Notebook 中同时在多个 GPU 上训练多个模型我正在使用 4GPU 的节点上工作我想将一个 GPU 分配给一个模型并同时训练 4 个不同的模型现在我通过例如为一台笔记本选择 GPU import
有没有一种简单的方法可以根据多个标准进行排名，从而保留 R 中的联系？

当单个标准排序良好时 rank 函数会返回明显的结果 rank c 2 4 1 3 5 1 2 4 1 3 5 当单个标准具有联系时排名函数默认情况下将平均排名分配给联系 rank c 2 4 1 1 5 1 3 0 4 0 1 5
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过
用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

最近我一直在用 python 开发一个项目其中涉及抓取一些网站的一些代理我遇到的问题是当我尝试抓取某个知名代理站点时当我要求 Beautiful Soup 查找 IP 在代理表中的位置时它并没有按照我的预期执行操作我将尝试查找每

随机推荐

ValueType 堆栈空间耗尽

我的理解是 Net中的每个新线程都会分配1MB 堆栈空间 https stackoverflow com questions 4088448 the net stack vs windows stack 进一步我的理解是值类型存储在堆栈上
urllib2 返回浏览器不同的页面？

我正在尝试抓取一个页面我的路由器的管理页面但该设备似乎为 urllib2 提供与我的浏览器不同的页面以前有人发现过这个吗我怎样才能绕过它这是我正在使用的代码 gt gt gt from BeautifulSoup import B
如何在azure应用程序服务上调试nodejs应用程序 - 获取http状态代码500

我是nodejs的新手我有一个基本的nodejs应用程序可以在带有nodejs v10 15 0和npm v6 9 0的Windows PC上正常运行但是当我将其部署到节点版本10 15 2的Windows平台上的Azure应用服务时
.htaccess 获取 uri 段的 url

我想转换网址 http example com calendar start 1281052769 end 1283731169 进入网址 http example com calendar 1281052769 1283731169 这
Android 滑动 TabLayout 带图标

我在我的视图中使用谷歌的 SlidingTabLayout 但我想向选项卡添加图标我正在用这个http developer android com samples SlidingTabsBasic src com example andr
如何按名称命名和检索 Git 存储？

如何保存应用带有名称的存储我不想在其中查找其索引号git stash list 我试过git stash save my stash name 但这只会改变存储描述以及相应的git apply my stash name 不起作用 T
使用 JQuery 检测生成表中表行的点击

我试图检测对表行的点击但遇到问题该表是从 javascript 文件生成的并放置在 html 内的 div 内该 div 名为 tableOutput 如果我将其设置为 tableOutput 我的 jquery 单击功能将起作用
如何在 JavaScript 中使用自定义 n 长度字符集打印 n 位数字而不使用 toString

以同样的方式我们使用字符得到十六进制数字 123456789abcdef 你可以简单地做integer toString 16 从整数到十六进制 gt 16 toString 16 10 我想改用自定义字符集和自定义基础所以对于十六进
如何使用 Devel::Cover 和证明？

我看到这里和上有一些类似的问题http www perlmonks org http www perlmonks org但我还是不明白想象一下我有一个带有 lib 和 t 目录的项目我用证明运行我的测试 cd PROJECT ROO
C# - 如何为多级继承层次结构指定泛型类型约束？

我有以下类层次结构 public class EntityBase
Jquery获取表单字段值

我正在使用 jquery 模板在同一页面上动态生成多个元素每个元素看起来像这样 div div class something Hello world div div class formdiv div div
JScrollPane 无法在空布局中工作

import javax swing JCheckBox import javax swing JFrame import javax swing JLabel import javax swing JPanel import javax
.jcall(cell, "V", "setCellValue", value) 中的错误：尝试 write.xlsx 时未找到带有签名 ([D)V 的 setCellValue 方法

library dtplyr library xlsx library lubridate data frame 612 obs of 7 variables Company Factor w 10 levels Harbor HCG 6
JQuery：委托和日期选择器

我需要给定类中的每个文本输入都是一个日期选择器就像是 input type text time datepicker 但我通过 Jquery load 添加了很多代码所以我相信我需要一个委托问题是我不知道该怎么做因为据我所知加载事
Ninject 3.0 MVC kernel.bind 错误自动注册

kernel Bind 上的获取和错误scanner gt 在 VS 2010 中 scanner 下面有一条小错误线无法将 lambda 表达式转换为类型 System Type 因为它不是代表类型尝试像 2 0 中的旧 kerne
Xcode 7：将数组控制器绑定到单选按钮组

我有一小组对象用户应该能够使用单选按钮组从中选择一个对象这些对象已绑定到数组控制器有没有办法将该阵列控制器绑定到单选按钮组以便动态生成其他单选按钮如果可能首选 IB 解决方案示例项目 https scriptreactor c
无法为 Kindle Fire HD 安装 ADB

我正在尝试root它尽管在我安装了正确的ADB驱动程序之后当我插入我的Kindle fire HD 7 时点燃火 gt Android 复合 ADB 接口没有出现在设备管理器中因此我无法执行root 我已将 0x1949 添加到
Elasticsearch 使用 jest 通过查询删除[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我发现一个有趣的功能叫做通过查询删除 https www elastic co guide en el
如何使用 python 从文本文件的行中读取特定字符？

我有多个 txt 文件其中包含与此类似的多行 class1 1 28 9 315 13 354227 2 36 247 17 342 8 34 14 3825 class2 14 31 8679 7 32 3582 2 32 4127 1
组合常见搭配的 NLP 流程

我有一个语料库我在 R 中使用 tm 包并且还在 python 中的 NLTK 中镜像相同的脚本我正在使用一元组但希望某种解析器能够将通常位于同一位置的单词组合成一个单词即我不想再在我的单词中分别看到 New 和 York 当它

组合常见搭配的 NLP 流程

组合常见搭配的 NLP 流程 的相关文章

随机推荐

热门标签

组合常见搭配的 NLP 流程的相关文章